論文の概要: Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.21704v1
- Date: Wed, 25 Feb 2026 09:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.768064
- Title: Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける幻覚緩和のための動的マルチモーダルアクティベーションステアリング
- Authors: Jianghao Yin, Qin Chen, Kedi Chen, Jie Zhou, Xingjiao Wu, Liang He,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚言語タスクにおいて優れた性能を示すが、幻覚に苦しむ。
本研究では,幻覚軽減のためのトレーニング不要アプローチである動的マルチモーダルアクティベーションステアリングを提案する。
- 参考スコア(独自算出の注目度): 22.535916867005955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) exhibit outstanding performance on vision-language tasks but struggle with hallucination problems. Through in-depth analysis of LVLM activation patterns, we reveal two key findings: 1) truthfulness and visual perception capabilities predominantly engage different subsets of attention heads within the model architecture; and 2) truthfulness steering vectors vary significantly across different semantic contexts. Based on these observations, we propose Dynamic Multimodal Activation Steering, a training-free approach for hallucination mitigation. Our method constructs a semantic-based truthfulness steering vector database and computes visual perception steering vectors, enabling context-aware interventions during inference by dynamically selecting the most relevant steering vectors based on input semantic similarity and applying them to the most influential attention heads. We conduct comprehensive experiments across multiple models and datasets, demonstrating that our approach significantly enhances model performance, outperforming existing state-of-the-art methods.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚言語タスクにおいて優れた性能を示すが、幻覚に苦しむ。
LVLM活性化パターンの深部分析により,2つの重要な所見が明らかになった。
1)本質性及び視覚知覚能力は、主にモデルアーキテクチャ内の異なる注意点のサブセットに係わる。
2) 真性ステアリングベクトルは意味的文脈によって大きく異なる。
これらの観測に基づいて,幻覚緩和のためのトレーニング不要アプローチである動的マルチモーダルアクティベーションステアリングを提案する。
提案手法は,意味に基づく真性ステアリングベクターデータベースを構築し,視覚知覚ステアリングベクターを計算し,入力意味的類似性に基づいて関連性の高いステアリングベクターを動的に選択し,最も影響力のあるアテンションヘッドに適用することにより,推論中のコンテキスト認識による介入を可能にする。
我々は、複数のモデルとデータセットにわたる包括的な実験を行い、我々のアプローチがモデルの性能を大幅に向上し、既存の最先端手法よりも優れていることを示す。
関連論文リスト
- Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [5.456780031044544]
本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留法を提案する。
歩行者行動予測やシーン理解タスクに適用し,より多様で包括的なセマンティック属性を生成する上で,有望な結果を達成する。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。