論文の概要: Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2501.12206v1
- Date: Tue, 21 Jan 2025 15:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 19:37:19.701176
- Title: Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
- Title(参考訳): 大規模視覚言語モデルの文脈内幻覚を軽減するための不均衡注意の固定
- Authors: Kazi Hasan Ibn Arif, Sajib Acharjee Dip, Khizar Hussain, Lang Zhang, Chris Thomas,
- Abstract要約: 大規模視覚言語モデル (LVLM) は視覚的内容の理解と記述において顕著な能力を示した。
これらのモデルは、しばしば幻覚の振る舞いを示し、入力画像に存在しない物体や詳細を含む記述を生成する。
本稿では,視覚的接地を維持するために,選択的トークン強調と頭部特異的変調を組み合わせた新しいアテンション修正手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities in understanding and describing visual content, achieving state-of-the-art performance across various vision-language tasks. However, these models frequently exhibit hallucination behavior, where they generate descriptions containing objects or details absent in the input image. Our work investigates this phenomenon by analyzing attention patterns across transformer layers and heads, revealing that hallucinations often stem from progressive degradation of visual grounding in deeper layers. We propose a novel attention modification approach that combines selective token emphasis and head-specific modulation to maintain visual grounding throughout the generation process. Our method introduces two key components: (1) a dual-stream token selection mechanism that identifies and prioritizes both locally informative and spatially significant visual tokens, and (2) an attention head-specific modulation strategy that differentially amplifies visual information processing based on measured visual sensitivity of individual attention heads. Through extensive experimentation on the MSCOCO dataset, we demonstrate that our approach reduces hallucination rates by up to 62.3\% compared to baseline models while maintaining comparable task performance. Our analysis reveals that selectively modulating tokens across attention heads with varying levels of visual sensitivity can significantly improve visual grounding without requiring model retraining.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、視覚内容の理解と記述において顕著な能力を示し、様々な視覚言語タスクにおける最先端のパフォーマンスを実現している。
しかし、これらのモデルはしばしば幻覚の振る舞いを示し、入力画像に存在しない物体や詳細を含む記述を生成する。
本研究は, この現象を, トランスフォーマー層や頭部の注意パターンを解析し, より深い層における視覚的接地の進行的劣化から幻覚が引き起こされることを示した。
生成過程を通して視覚的接地を維持するために,選択的トークン強調と頭部特異的変調を組み合わせた新しいアテンション修正手法を提案する。
本手法では,(1)局所的な視覚的トークンと空間的に重要な視覚的トークンの両方を識別・優先順位付けするデュアルストリームトークン選択機構,(2)個別の視覚的感性に基づいて視覚情報処理を微分的に増幅する注目頭部特異的変調方式を提案する。
MSCOCOデータセットの広範な実験を通して、我々の手法は、基準モデルと比較して幻覚率を62.3倍に削減し、タスク性能を同等に維持することを示した。
分析の結果,視覚的感度の異なる注目頭間でトークンを選択的に調整することで,モデル再トレーニングを必要とせずに視覚的グラウンドニングを大幅に改善できることがわかった。
関連論文リスト
- Beyond Intermediate States: Explaining Visual Redundancy through Language [7.275188652473603]
MLLM(Multi-modal Large Langue Models)はしばしば数千の視覚トークンを処理する。
低いViT-[cls]アソシエーションと低いテキスト・ツー・イメージアテンションスコアを持つビジュアルトークンは、認識可能な情報を含むことができる。
冗長な視覚トークンを識別および解析するための信頼性の高い手法を開発した。
論文 参考訳(メタデータ) (2025-03-26T13:38:10Z) - Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models [14.739801223002262]
LVLM(Large Vision-Language Model)は、画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答えるために重要な情報を含まない無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
本稿では,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する命令適応型視覚注意(IAVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:09:06Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination [11.845711223575462]
画像トークン上でのLLM(Large Language Model)デコーダの注意分布は,視覚的エンコーダと非常に一致していることがわかった。
我々は,D$ive を$A$ttention $M$echanism of LVLM に変換する新しいトレーニングフリー戦略 DAMRO を提案する。
論文 参考訳(メタデータ) (2024-10-06T15:12:09Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
盲目トークンと呼ばれるいくつかの画像トークンへの過剰な注意は、視覚オブジェクトのきめ細かい理解を必要とするタスクにおいて幻覚反応をもたらす。
注意重みの低いトークンは、しばしば、ニュアンスオブジェクトの詳細を特定するのに不可欠な情報を持っている。
盲目トークンの過剰エンハンシスに対処するために,AVC(Attentional Vision)と呼ばれる手法を導入する。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。