Fugu-MT 論文翻訳(概要): Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration

論文の概要: Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration

arxiv url: http://arxiv.org/abs/2506.21509v1
Date: Thu, 26 Jun 2025 17:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.222903
Title: Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration
Title（参考訳）: 動的ロジット校正による大型視覚言語モデルの幻覚の緩和
Authors: Jiahe Chen, Jiaying He, Qian Shao, Qiyuan Chen, Jiahe Ying, Hongxia Xu, Jintai Chen, Jianwei Zheng, Jian Wu,
Abstract要約: LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。既存のトレーニング不要のデコード戦略には、重大な制限がある。本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
参考スコア（独自算出の注目度）: 8.192590936983347
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated significant advancements in multimodal understanding, yet they are frequently hampered by hallucination-the generation of text that contradicts visual input. Existing training-free decoding strategies exhibit critical limitations, including the use of static constraints that do not adapt to semantic drift during generation, inefficiency stemming from the need for multiple forward passes, and degradation of detail due to overly rigid intervention rules. To overcome these challenges, this paper introduces Dynamic Logits Calibration (DLC), a novel training-free decoding framework designed to dynamically align text generation with visual evidence at inference time. At the decoding phase, DLC step-wise employs CLIP to assess the semantic alignment between the input image and the generated text sequence. Then, the Relative Visual Advantage (RVA) of candidate tokens is evaluated against a dynamically updated contextual baseline, adaptively adjusting output logits to favor tokens that are visually grounded. Furthermore, an adaptive weighting mechanism, informed by a real-time context alignment score, carefully balances the visual guidance while ensuring the overall quality of the textual output. Extensive experiments conducted across diverse benchmarks and various LVLM architectures (such as LLaVA, InstructBLIP, and MiniGPT-4) demonstrate that DLC significantly reduces hallucinations, outperforming current methods while maintaining high inference efficiency by avoiding multiple forward passes. Overall, we present an effective and efficient decoding-time solution to mitigate hallucinations, thereby enhancing the reliability of LVLMs for more practices. Code will be released on Github.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は多モーダル理解において顕著な進歩を見せているが、視覚入力に反する幻覚生成によってしばしば妨げられる。既存のトレーニング不要のデコード戦略には、生成時に意味的ドリフトに適応しない静的制約の使用、複数の前方パスの必要性に起因する非効率性、過度に厳密な介入規則による詳細性の低下など、重要な制限がある。これらの課題を克服するために,テキスト生成と推論時の視覚的エビデンスを動的に整合させる新しいトレーニング不要デコードフレームワークであるDynamic Logits Calibration (DLC)を導入する。復号段階では、DLCはCLIPを用いて入力画像と生成されたテキストシーケンスのセマンティックアライメントを評価する。次に、候補トークンの相対的ビジュアルアドバンテージ(RVA)を動的に更新されたコンテキストベースラインに対して評価し、出力ロジットを適応的に調整して、視覚的に接地されたトークンを選択する。さらに、リアルタイムのコンテキストアライメントスコアによって通知される適応重み付け機構は、テキスト出力の全体的な品質を確保しつつ、視覚的ガイダンスを注意深くバランスさせる。様々なベンチマークと様々なLVLMアーキテクチャ(LLaVA、InstructBLIP、MiniGPT-4)で実施された大規模な実験により、DLCは幻覚を著しく低減し、複数の前方通過を避けることで高い推論効率を維持しながら、現在の手法より優れることを示した。全体として、幻覚を緩和し、より実践的なLVLMの信頼性を高めるために、効果的で効率的な復号時間ソリューションを提案する。コードはGithubでリリースされる。

関連論文リスト

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-26T08:36:10Z)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳（メタデータ） (2025-02-17T12:26:34Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文参考訳（メタデータ） (2024-06-04T03:04:21Z)
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。 VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文参考訳（メタデータ） (2022-10-09T01:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。