論文の概要: Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction
- arxiv url: http://arxiv.org/abs/2512.18813v1
- Date: Sun, 21 Dec 2025 17:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.514841
- Title: Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction
- Title(参考訳): LVLMにおける知覚と生成ダイナミクスの解明--ドミナンス補正による幻覚の緩和
- Authors: Guangtao Lyu, Xinyi Cheng, Chenghao Xu, Qi Liu, Muli Yang, Fen Fang, Huilin Chen, Jiexi Yan, Xu Yang, Cheng Deng,
- Abstract要約: LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
- 参考スコア(独自算出の注目度): 59.801614364841775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown remarkable capabilities, yet hallucinations remain a persistent challenge. This work presents a systematic analysis of the internal evolution of visual perception and token generation in LVLMs, revealing two key patterns. First, perception follows a three-stage GATE process: early layers perform a Global scan, intermediate layers Approach and Tighten on core content, and later layers Explore supplementary regions. Second, generation exhibits an SAD (Subdominant Accumulation to Dominant) pattern, where hallucinated tokens arise from the repeated accumulation of subdominant tokens lacking support from attention (visual perception) or feed-forward network (internal knowledge). Guided by these findings, we devise the VDC (Validated Dominance Correction) strategy, which detects unsupported tokens and replaces them with validated dominant ones to improve output reliability. Extensive experiments across multiple models and benchmarks confirm that VDC substantially mitigates hallucinations.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
この研究は、LVLMにおける視覚知覚とトークン生成の内部進化を体系的に分析し、2つの重要なパターンを明らかにした。
まず、認識は3段階のGATEプロセスに従う: 初期レイヤはGlobalスキャンを実行し、中間レイヤはコアコンテンツにアプローチし、その後レイヤは補助領域を探索する。
第二に、世代はSAD(Subdominant Accumulation to Dominant)パターンを示し、そこでは、注意(視覚知覚)やフィードフォワードネットワーク(内部知識)からの支持が欠如している下位支配トークンの繰り返し蓄積から、幻覚トークンが生じる。
これらの知見に導かれ,VDC(Validated Dominance Correction)戦略を考案した。
複数のモデルとベンチマークにわたる大規模な実験により、VDCが幻覚を著しく緩和することが確認された。
関連論文リスト
- IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。
我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文 参考訳(メタデータ) (2025-08-05T14:05:15Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [65.4610281589017]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通じてランク付けされたトークンログを調べた結果,幻覚内部のダイナミクスについて検討した。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。