論文の概要: Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats
- arxiv url: http://arxiv.org/abs/2511.17254v1
- Date: Fri, 21 Nov 2025 13:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.050557
- Title: Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats
- Title(参考訳): インターベイン・オールパス:アライメント・フォーマットにおけるLVLM幻覚の統一緩和
- Authors: Jiaye Qian, Ge Zheng, Yuchen Zhu, Sibei Yang,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)におけるトランスフォーマーの因果構造に沿った包括的介入フレームワークを提案する。
LVLMの幻覚は、単一の因果経路ではなく、画像からインプットテキスト、画像からアウトプットテキスト、テキストからテキストへの経路間の相互作用から生じる。
これらの知見に基づいて,各経路における重要な幻覚の頭部を識別し,介入するための簡易かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 36.4775746930584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive performance across a wide range of tasks, Large Vision-Language Models (LVLMs) remain prone to hallucination. In this study, we propose a comprehensive intervention framework aligned with the transformer's causal architecture in LVLMs, integrating the effects of different intervention paths on hallucination. We find that hallucinations in LVLMs do not arise from a single causal path, but rather from the interplay among image-to-input-text, image-to-output-text, and text-to-text pathways. For the first time, we also find that LVLMs rely on different pathways depending on the question-answer alignment format. Building on these insights, we propose simple yet effective methods to identify and intervene on critical hallucination heads within each pathway, tailored to discriminative and generative formats. Experiments across multiple benchmarks demonstrate that our approach consistently reduces hallucinations across diverse alignment types.
- Abstract(参考訳): 幅広いタスクにわたる印象的なパフォーマンスにもかかわらず、LVLM(Large Vision-Language Models)は幻覚の傾向にある。
本研究では,LVLMにおけるトランスフォーマーの因果構造に沿った包括的介入枠組みを提案し,異なる介入経路が幻覚に及ぼす影響を統合する。
LVLMの幻覚は、単一の因果経路ではなく、画像からインプットテキスト、画像からアウトプットテキスト、テキストからテキストへの経路間の相互作用から生じる。
また,LVLMは問合せアライメント形式によって異なる経路に依存していることも初めて明らかになった。
これらの知見に基づいて,各経路における重要な幻覚の頭部を識別し,介入するための簡易かつ効果的な方法を提案する。
複数のベンチマークによる実験により、我々のアプローチは様々なアライメントタイプにまたがる幻覚を一貫して減少させることが示された。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [38.43656456659151]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な性能を達成した。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLM における幻覚を緩和するために,SAE 由来の潜伏方向に基づくプラグアンドプレイ方式である SAE Latent Directions (SSL) を用いたステアリング LVLM を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。