論文の概要: Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution
- arxiv url: http://arxiv.org/abs/2605.14621v1
- Date: Thu, 14 May 2026 09:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.754478
- Title: Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution
- Title(参考訳): 幻覚を緩和するための外部ツールは本当に必要か?
- Authors: Tian Qin, Junzhe Chen, Yuqing Shi, Tianshu Zhang, Qiang Ju, Lijie Wen,
- Abstract要約: 大型視覚言語モデル(LVLM)は、言語が弱いあるいは曖昧な視覚的証拠を支配している場合、しばしば幻覚を与える。
トレーニング不要な内部コントラストデコーディングフレームワークであるSIRAを提案する。
SIRAは、マルチモーダルトランスのステージ情報フローを利用して、同一のLVLM内部に反ファクト参照を構築する。
- 参考スコア(独自算出の注目度): 16.893597692093735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) often hallucinate when language priors dominate weak or ambiguous visual evidence. Existing contrastive decoding methods mitigate this problem by comparing predictions from the original image with those from externally perturbed visual inputs, but such references can introduce off-manifold artifacts and require costly extra forward passes. We propose SIRA, a training-free internal contrastive decoding framework that constructs a counterfactual reference inside the same LVLM by exploiting the staged information flow of multimodal transformers. Instead of removing visual information from the input, SIRA first lets image and text tokens interact through a shared prefix, forming an aligned multimodal state that preserves prompt interpretation, decoding history, positional structure, and early visual grounding. It then forks a counterfactual branch in later transformer layers, where attention to image-token positions is masked. This branch retains the shared multimodal context but lacks continued access to fine-grained visual evidence, yielding a language-prior-dominated internal reference for token-level contrast. During decoding, SIRA suppresses tokens that remain strong without late visual access and favors predictions whose advantage depends on the full visual pathway. Experiments on POPE, CHAIR, and AMBER with Qwen2.5-VL and LLaVA-v1.5 show that SIRA consistently reduces hallucinations while preserving descriptive coverage and incurring lower overhead than two-pass contrastive decoding. SIRA requires no training, external verifier, or perturbed input, and applies to open-weight LVLMs with white-box inference access.
- Abstract(参考訳): 大型視覚言語モデル(LVLM)は、言語が弱いあるいは曖昧な視覚的証拠を支配している場合、しばしば幻覚を与える。
既存のコントラスト復号法は、元の画像からの予測と外部の摂動した視覚入力の予測を比較することでこの問題を軽減するが、そのような参照はオフ・マニフォールドのアーティファクトを導入し、高価なフォワードパスを必要とする。
SIRAは,マルチモーダルトランスの段階的情報フローを利用して,同一LVLM内の反ファクト参照を構築する,トレーニング不要な内部コントラストデコーディングフレームワークである。
入力から視覚的情報を除去する代わりに、SIRAはまず画像とテキストトークンを共有プレフィックスを介して対話させ、即時解釈、復号化履歴、位置構造、早期視覚的接地を保存したアライメントされたマルチモーダル状態を形成する。
その後、後続のトランスフォーマー層に反ファクトの分岐をフォークし、イメージトーケン位置への注意を隠蔽する。
このブランチは共有マルチモーダルコンテキストを保持するが、粒度の細かい視覚的証拠に引き続きアクセスできないため、トークンレベルのコントラストに対して言語が優先される内部参照が得られる。
復号中、SIRAは遅延視覚アクセスなしで強いトークンを抑え、完全な視覚経路に依存している予測を好む。
POPE, CHAIR, AMBERをQwen2.5-VLおよびLLaVA-v1.5で実験したところ、SIRAは記述的カバレッジを維持しながら幻覚を一貫して低減し、2パスのコントラスト的デコーディングよりもオーバーヘッドが低いことが示された。
SIRAはトレーニング、外部検証、摂動入力を必要とせず、ホワイトボックス推論アクセスを備えたオープンウェイトLVLMに適用できる。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs [28.766303423132722]
Video Large Language Models (Vid-LLMs) は通常、キーバリューキャッシュの爆発とコンテキストウィンドウのミスマッチによる注意の希釈と負の視覚的利得の罠に陥る。
本研究では,まず,隠れ状態の再利用によって視覚的に認識可能なウィンドウアテンションを利用して,視覚的計算を対象モデルに完全にオフロードするSparrowフレームワークを提案する。
実験の結果,25kの視覚トークンでも平均2.82倍のスピードアップを実現し,長いシーケンスでの性能劣化を効果的に解消できることがわかった。
論文 参考訳(メタデータ) (2026-02-17T02:51:36Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。