論文の概要: MDSAM:Memory-Driven Sparse Attention Matrix for LVLMs Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2506.17664v1
- Date: Sat, 21 Jun 2025 09:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.529244
- Title: MDSAM:Memory-Driven Sparse Attention Matrix for LVLMs Hallucination Mitigation
- Title(参考訳): MDSAM:LVLMの幻覚軽減のためのメモリ駆動スパースアテンションマトリックス
- Authors: Shuaiye Lu, Linjiang Zhou, Xiaochuan Shi,
- Abstract要約: MDSAM(Memory-Driven Sparse Attention Matrix)は、各レイヤのイメージトークンに割り当てられた注意を動的にキャプチャし、洗練する、トレーニング不要のアプローチである。
MDSAMは注意パターンを記憶し、デコード中のアライメントを通じて更新を活性化し、幻覚を効果的に減少させ、関連する画像トークンに焦点をあてる。
- 参考スコア(独自算出の注目度): 0.11704154007740833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in large vision-language models (LVLMs) often stem from the model's sensitivity to image tokens during decoding, as evidenced by attention peaks observed when generating both real and hallucinated entities. To address this, we propose Memory-Driven Sparse Attention Matrix (MDSAM) , a novel training-free approach that dynamically captures and refines the attention allocated to image tokens at each layer. MDSAM memorizes attention patterns and activates updates through alignment during decoding, enhancing focus on relevant image tokens while effectively reducing hallucinations. We evaluate MDSAM on multiple benchmarks for tasks such as image captioning and visual question answering, demonstrating its ability to consistently reduce hallucinations and improve reliability. Compatible with various LVLM architectures, MDSAM highlights its adaptability and effectiveness in mitigating hallucinations without requiring additional training or external tools.
- Abstract(参考訳): 大型視覚言語モデル(LVLM)の幻覚は、実数と幻数の両方を生成する際に観測される注目ピークによって証明されるように、デコード中の画像トークンに対するモデルの感度から生じることが多い。
メモリ駆動型スパースアテンションマトリックス(MDSAM)は,各レイヤのイメージトークンに割り当てられた注意を動的にキャプチャし,洗練する,新たなトレーニングフリーアプローチである。
MDSAMは注意パターンを記憶し、デコード中のアライメントを通じて更新を活性化し、幻覚を効果的に減少させ、関連する画像トークンに焦点をあてる。
画像キャプションや視覚的質問応答などのタスクに対して,MDSAMを複数のベンチマークで評価し,幻覚を一貫して低減し,信頼性を向上させる能力を示した。
MDSAMは様々なLVLMアーキテクチャと互換性があり、追加のトレーニングや外部ツールを必要とせずに幻覚を緩和する適応性と効果を強調している。
関連論文リスト
- TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection [6.006482486396196]
本稿では,画像トークンに対する注意の低下による幻覚を軽減するために,時間的注意リアルタイム累積接続(TARAC)を提案する。
我々は、複数のモデルとデータセットにまたがってTARACを評価し、我々のアプローチが幻覚を著しく軽減することを示した。
論文 参考訳(メタデータ) (2025-04-05T07:57:11Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [26.32657568461926]
マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向がある。
MemVRは共通の認知にインスパイアされた新しいデコードパラダイムである。
MemVRは様々なMLLMの幻覚を著しく緩和する。
論文 参考訳(メタデータ) (2024-10-04T16:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。