論文の概要: Not Blind but Silenced: Rebalancing Vision and Language via Adversarial Counter-Commonsense Equilibrium
- arxiv url: http://arxiv.org/abs/2605.10676v1
- Date: Mon, 11 May 2026 14:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.916138
- Title: Not Blind but Silenced: Rebalancing Vision and Language via Adversarial Counter-Commonsense Equilibrium
- Title(参考訳): 盲目ではなく無実: 対抗的カウンター・コモンセンス平衡によるビジョンと言語の再バランス
- Authors: Qingxin Xiao, Peilin Zhao, Yangyang Zhao, Lingwei Dang, Qingyao Wu,
- Abstract要約: 幻覚は,言語的先行と視覚情報との平衡不均衡に起因することを示す。
本稿では,対談パッチを通じて視覚的コンテキストを摂動させるトレーニングフリーフレームワークであるAdversarial Counter-Commonsense Equilibrium(ACE)を提案する。
- 参考スコア(独自算出の注目度): 45.32813798418116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During MLLM decoding, attention often abnormally concentrates on irrelevant image tokens. While existing research dismisses this as invalid noise and forcibly redirects attention to compel focusing on key image information, we argue these tokens are critical carriers of visual and narrative logic, and such coercive corrections exacerbate visual-language imbalance. Adopting a "decoding-as-game" perspective, we reveal that hallucinations stem from an equilibrium imbalance between linguistic priors and visual information. We propose Adversarial Counter-Commonsense Equilibrium (ACE), a training-free framework that perturbs visual context via counter-commonsense patches. Leveraging the fact that authentic visual features remain stable under perturbation while hallucinations fluctuate, ACE implements a dynamic game decoding strategy. This approach precisely suppresses perturbation-sensitive priors while compensating for stable visual signals to restore balance. Extensive experiments demonstrate that ACE, as a plug-and-play strategy, enhances model trustworthiness with negligible inference overhead.
- Abstract(参考訳): MLLMデコーディング中、注意はしばしば無関係な画像トークンに集中する。
既存の研究では、これを無効なノイズとして排除し、重要な画像情報に重点を置いた強制的に注意を向けているが、これらのトークンは視覚的・物語論理の重要なキャリアであり、このような強制的な補正は視覚言語の不均衡を悪化させる。
デコーディング・アズ・ア・ゲーム」の観点から、幻覚は言語的先行と視覚情報との平衡不均衡から生じることを明らかにした。
本稿では,対談パッチを通じて視覚的コンテキストを摂動させるトレーニングフリーフレームワークであるAdversarial Counter-Commonsense Equilibrium(ACE)を提案する。
幻覚が変動している間、真の視覚的特徴が摂動の下で安定しているという事実を活用して、ACEはダイナミックなゲームデコーディング戦略を実装している。
この手法は、安定な視覚信号を補償してバランスを回復しながら、摂動に敏感な先行を正確に抑制する。
大規模な実験により、ACEはプラグアンドプレイ戦略として、無視可能な推論オーバーヘッドでモデルの信頼性を高めることが実証された。
関連論文リスト
- See Fair, Speak Truth: Equitable Attention Improves Grounding and Reduces Hallucination in Vision-Language Alignment [16.616065291567445]
MLLM(Multimodal large language model)は視覚入力を欠いたオブジェクトを幻覚させる。
DOP-OBCは、公平な注意の原則に基づいて構築された、トレーニング不要でアーキテクチャに依存しないデコーディング戦略である。
論文 参考訳(メタデータ) (2026-04-10T11:01:48Z) - Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification [23.673836358196468]
LVLM(Large Vision-Language Models)のオブジェクト幻覚は、現実世界のアプリケーションにおける信頼性を著しく損なう。
本稿では,注意重みを再配置し,注意分布を調整し,モダリティワイドおよびトークンワイドの不均衡を是正する軽量な復号時間介入法であるAttention Im Balance Rectification (AIR)を提案する。
論文 参考訳(メタデータ) (2026-03-25T08:06:47Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [2.19036693868242]
大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
2つの重要なバイアスをターゲットとして、この問題に対処するために、信頼性意識(CAAC)フレームワークを導入します。
CAACでは、視覚トークン間の注意のバランスをとるためにVTC(Visual-Token)と、視覚的接地を強化するためにAdaptive Attention Re-Scaling(Adaptive Re-Scaling)という2段階のアプローチを採用している。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。