論文の概要: CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.23453v1
- Date: Mon, 29 Dec 2025 13:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.511669
- Title: CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models
- Title(参考訳): CoFi-Dec:大規模視覚・言語モデルにおける粗~偽生成フィードバックによる幻覚耐性復号
- Authors: Zongsheng Cao, Yangfan He, Anran Liu, Jun Xie, Feng Chen, Zepeng Wang,
- Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な進歩を遂げた。
CoFi-Decは、生成的自己フィードバックと粗い視覚条件を統合することで幻覚を緩和する、トレーニング不要なデコーディングフレームワークである。
実験により、CoFi-Decはエンティティレベルとセマンティックレベルの両方の幻覚を著しく減らし、既存の復号戦略より優れていることが示された。
- 参考スコア(独自算出の注目度): 14.570869250170139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive progress in multi-modal understanding and generation. However, they still tend to produce hallucinated content that is inconsistent with the visual input, which limits their reliability in real-world applications. We propose \textbf{CoFi-Dec}, a training-free decoding framework that mitigates hallucinations by integrating generative self-feedback with coarse-to-fine visual conditioning. Inspired by the human visual process from global scene perception to detailed inspection, CoFi-Dec first generates two intermediate textual responses conditioned on coarse- and fine-grained views of the original image. These responses are then transformed into synthetic images using a text-to-image model, forming multi-level visual hypotheses that enrich grounding cues. To unify the predictions from these multiple visual conditions, we introduce a Wasserstein-based fusion mechanism that aligns their predictive distributions into a geometrically consistent decoding trajectory. This principled fusion reconciles high-level semantic consistency with fine-grained visual grounding, leading to more robust and faithful outputs. Extensive experiments on six hallucination-focused benchmarks show that CoFi-Dec substantially reduces both entity-level and semantic-level hallucinations, outperforming existing decoding strategies. The framework is model-agnostic, requires no additional training, and can be seamlessly applied to a wide range of LVLMs. The implementation is available at https://github.com/AI-Researcher-Team/CoFi-Dec.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な進歩を遂げた。
しかし、視覚的な入力と矛盾しない幻覚コンテンツを生成する傾向があり、現実のアプリケーションでは信頼性が制限される。
本稿では,生成的自己フィードバックと粗い視覚条件を組み合わせることで幻覚を緩和する学習自由なデコードフレームワークである‘textbf{CoFi-Dec} を提案する。
グローバルシーン認識から詳細な検査に至るまでの人間の視覚プロセスにインスパイアされたCoFi-Decは、まず、元の画像の粗い視界ときめ細かい視界を条件とした2つの中間テキスト応答を生成する。
これらの反応は、テキスト・ツー・イメージ・モデルを用いて合成画像に変換され、グラウンドディング・キューを豊かにする多段階の視覚仮説を形成する。
これら複数の視覚的条件から予測を統一するために、予測分布を幾何学的に一貫した復号軌道に整列させるワーサーシュタインに基づく融合機構を導入する。
この原理的な融合は、きめ細かい視覚的接地と高レベルのセマンティック一貫性を調整し、より堅牢で忠実な出力をもたらす。
6つの幻覚に焦点を当てたベンチマークによる大規模な実験により、CoFi-Decはエンティティレベルとセマンティックレベルの両方の幻覚を著しく減らし、既存の復号戦略を上回ります。
このフレームワークはモデルに依存しず、追加のトレーニングを必要とせず、広範囲のLVLMにシームレスに適用できる。
実装はhttps://github.com/AI-Researcher-Team/CoFi-Decで公開されている。
関連論文リスト
- Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [65.4610281589017]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。