論文の概要: Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations
- arxiv url: http://arxiv.org/abs/2505.17812v1
- Date: Fri, 23 May 2025 12:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.061846
- Title: Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations
- Title(参考訳): 見るか見ないか? 物体の幻覚を緩和する視覚認識の潜在的ステアリング
- Authors: Boxu Chen, Ziwei Zheng, Le Yang, Zeyu Geng, Zhengyu Zhao, Chenhao Lin, Chao Shen,
- Abstract要約: LVLM(Large Vision-Language Models)は目覚ましい成功を収めているが、物体幻覚(OH)との闘いは続いている。
本稿では,LVLMにおけるOHに対処する解釈的緩和戦略を採用した視覚対応遅延ステアリングフレームワークであるVaseを提案する。
- 参考スコア(独自算出の注目度): 11.474045796965056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable success but continue to struggle with object hallucination (OH), generating outputs inconsistent with visual inputs. While previous work has proposed methods to reduce OH, the visual decision-making mechanisms that lead to hallucinations remain poorly understood. In this paper, we propose VaLSe, a Vision-aware Latent Steering framework that adopts an interpretation-then-mitigation strategy to address OH in LVLMs. By tackling dual challenges of modeling complex vision-language interactions and eliminating spurious activation artifacts, VaLSe can generate visual contribution maps that trace how specific visual inputs influence individual output tokens. These maps reveal the model's vision-aware focus regions, which are then used to perform latent space steering, realigning internal representations toward semantically relevant content and reducing hallucinated outputs. Extensive experiments demonstrate that VaLSe is a powerful interpretability tool and an effective method for enhancing model robustness against OH across multiple benchmarks. Furthermore, our analysis uncovers limitations in existing OH evaluation metrics, underscoring the need for more nuanced, interpretable, and visually grounded OH benchmarks in future work. Code is available at: https://github.com/Ziwei-Zheng/VaLSe.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は目覚ましい成功を収めているが、物体幻覚(OH)に苦戦し続けており、視覚入力と矛盾する出力を生成する。
以前の研究ではOHを減らす方法が提案されているが、幻覚につながる視覚的意思決定メカニズムはいまだに理解されていない。
本稿では,LVLMにおけるOHに対処するための解釈-理論緩和戦略を採用した視覚対応遅延ステアリングフレームワークであるVaseを提案する。
複雑な視覚言語インタラクションをモデル化し、刺激的なアクティベーションアーティファクトを排除するという2つの課題に取り組むことで、Vaseは視覚的な入力が個々の出力トークンにどのように影響するかを追跡する視覚的コントリビューションマップを生成することができる。
これらのマップはモデルが認識する焦点領域を明らかにし、遅延空間ステアリングを行い、意味的関連コンテンツに対する内部表現を実現し、幻覚出力を減少させる。
大規模な実験により、VaLSeは強力な解釈可能性ツールであり、複数のベンチマークでOHに対するモデルロバスト性を高める効果的な方法であることが示された。
さらに、我々の分析は既存のOH評価指標の限界を明らかにし、将来の作業においてよりニュアンスが高く、解釈可能で、視覚的に根ざしたOHベンチマークの必要性を強調している。
コードは、https://github.com/Ziwei-Zheng/VaLSe.comで入手できる。
関連論文リスト
- Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding [30.30494071474536]
HALCは、大規模視覚言語モデル(LVLM)における物体幻覚(OH)を軽減するために設計された新しい復号アルゴリズムである。
HALCは、ハエの幻覚トークンを補正するために(局所的に)堅牢なオートフォーカスグラウンド機構と、OHを著しく低減するために(球面的に)特殊なビームサーチアルゴリズムを統合している。
論文 参考訳(メタデータ) (2024-03-01T10:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。