論文の概要: Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2405.17820v2
- Date: Sat, 31 May 2025 02:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.836666
- Title: Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models
- Title(参考訳): 樹木の森を見逃すな:大規模視覚言語モデルのための注意的視覚校正
- Authors: Sangmin Woo, Donguk Kim, Jaehyuk Jang, Yubin Choi, Changick Kim,
- Abstract要約: 大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
- 参考スコア(独自算出の注目度): 16.185253476874006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) demonstrate strong capabilities in visual understanding and description, yet often suffer from hallucinations, attributing incorrect or misleading features to images. We observe that LVLMs disproportionately focus on a small subset of image tokens--termed blind tokens--which are typically irrelevant to the query (e.g., background or non-object regions). We hypothesize that such attention misalignment plays a key role in generating hallucinated responses. To mitigate this issue, we propose Attentional Vision Calibration (AvisC), a test-time approach that dynamically recalibrates the influence of blind tokens without modifying the underlying attention mechanism. AvisC first identifies blind tokens by analyzing layer-wise attention distributions over image tokens, then employs a contrastive decoding strategy to balance the influence of original and blind-token-biased logits. Experiments on standard benchmarks, including POPE, MME, and AMBER, demonstrate that AvisC effectively reduces hallucinations in LVLMs.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされ、画像に誤りや誤解をもたらす。
我々はLVLMが画像トークンの小さなサブセットに不均等に焦点を合わせていることを観察する。
このような注意欠陥が幻覚反応の生成に重要な役割を果たしていると仮定する。
この問題を緩和するため,目隠し機構を変更することなく,目隠しトークンの影響を動的に緩和するテストタイムアプローチであるAvisC(Attentional Vision Calibration)を提案する。
AvisCはまず、画像トークン上の層単位での注意分布を分析してブラインドトークンを識別し、その後、オリジナルおよびブラインドトークンバイアスドロジットの影響のバランスをとるために、コントラスト的なデコーディング戦略を採用する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
関連論文リスト
- Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models [14.739801223002262]
LVLM(Large Vision-Language Model)は、画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答えるために重要な情報を含まない無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
本稿では,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する命令適応型視覚注意(IAVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:09:06Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - See What You Are Told: Visual Attention Sink in Large Multimodal Models [4.024850952459758]
大規模マルチモーダルモデル(LMM)は、トランスフォーマーデコーダにおけるテキストと視覚トークン間の注意機構を活用することで、イメージを「見る」。
最近の知見は、LMMは特定の視覚トークンに常に高い注意重みを割り当てる異常な傾向にあることを示している。
本稿では、画像中心の頭部における注意を再分配する視覚的注意再分配(VAR)について紹介する。
論文 参考訳(メタデータ) (2025-03-05T09:55:07Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - Visual Attention Never Fades: Selective Progressive Attention ReCalibration for Detailed Image Captioning in Multimodal Large Language Models [35.49886398402627]
本稿では,復号化時の視覚トークンの寄与を高める訓練自由手法を提案する。
自動評価と人的評価の両方を取り入れた実験は,既存の手法がリコールコストでMLLMの精度を向上させることを実証した。
論文 参考訳(メタデータ) (2025-02-03T14:58:11Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。