論文の概要: Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration
- arxiv url: http://arxiv.org/abs/2506.21509v1
- Date: Thu, 26 Jun 2025 17:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.222903
- Title: Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration
- Title(参考訳): 動的ロジット校正による大型視覚言語モデルの幻覚の緩和
- Authors: Jiahe Chen, Jiaying He, Qian Shao, Qiyuan Chen, Jiahe Ying, Hongxia Xu, Jintai Chen, Jianwei Zheng, Jian Wu,
- Abstract要約: LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
- 参考スコア(独自算出の注目度): 8.192590936983347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated significant advancements in multimodal understanding, yet they are frequently hampered by hallucination-the generation of text that contradicts visual input. Existing training-free decoding strategies exhibit critical limitations, including the use of static constraints that do not adapt to semantic drift during generation, inefficiency stemming from the need for multiple forward passes, and degradation of detail due to overly rigid intervention rules. To overcome these challenges, this paper introduces Dynamic Logits Calibration (DLC), a novel training-free decoding framework designed to dynamically align text generation with visual evidence at inference time. At the decoding phase, DLC step-wise employs CLIP to assess the semantic alignment between the input image and the generated text sequence. Then, the Relative Visual Advantage (RVA) of candidate tokens is evaluated against a dynamically updated contextual baseline, adaptively adjusting output logits to favor tokens that are visually grounded. Furthermore, an adaptive weighting mechanism, informed by a real-time context alignment score, carefully balances the visual guidance while ensuring the overall quality of the textual output. Extensive experiments conducted across diverse benchmarks and various LVLM architectures (such as LLaVA, InstructBLIP, and MiniGPT-4) demonstrate that DLC significantly reduces hallucinations, outperforming current methods while maintaining high inference efficiency by avoiding multiple forward passes. Overall, we present an effective and efficient decoding-time solution to mitigate hallucinations, thereby enhancing the reliability of LVLMs for more practices. Code will be released on Github.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は多モーダル理解において顕著な進歩を見せているが、視覚入力に反する幻覚生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、生成時に意味的ドリフトに適応しない静的制約の使用、複数の前方パスの必要性に起因する非効率性、過度に厳密な介入規則による詳細性の低下など、重要な制限がある。
これらの課題を克服するために,テキスト生成と推論時の視覚的エビデンスを動的に整合させる新しいトレーニング不要デコードフレームワークであるDynamic Logits Calibration (DLC)を導入する。
復号段階では、DLCはCLIPを用いて入力画像と生成されたテキストシーケンスのセマンティックアライメントを評価する。
次に、候補トークンの相対的ビジュアルアドバンテージ(RVA)を動的に更新されたコンテキストベースラインに対して評価し、出力ロジットを適応的に調整して、視覚的に接地されたトークンを選択する。
さらに、リアルタイムのコンテキストアライメントスコアによって通知される適応重み付け機構は、テキスト出力の全体的な品質を確保しつつ、視覚的ガイダンスを注意深くバランスさせる。
様々なベンチマークと様々なLVLMアーキテクチャ(LLaVA、InstructBLIP、MiniGPT-4)で実施された大規模な実験により、DLCは幻覚を著しく低減し、複数の前方通過を避けることで高い推論効率を維持しながら、現在の手法より優れることを示した。
全体として、幻覚を緩和し、より実践的なLVLMの信頼性を高めるために、効果的で効率的な復号時間ソリューションを提案する。
コードはGithubでリリースされる。
関連論文リスト
- Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。