論文の概要: Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding
- arxiv url: http://arxiv.org/abs/2510.18321v1
- Date: Tue, 21 Oct 2025 06:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.017687
- Title: Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding
- Title(参考訳): 単一モデルを超えて:適応的トークンアンサンブルデコーディングによるマルチモーダル幻覚の緩和
- Authors: Jinlin Li, Yuran Wang, Yifei Yuan, Xiao Zhou, Yingying Zhang, Xixian Yong, Yefeng Zheng, Xian Wu,
- Abstract要約: LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
- 参考スコア(独自算出の注目度): 41.828387997311474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have recently achieved impressive results in multimodal tasks such as image captioning and visual question answering. However, they remain prone to object hallucination -- generating descriptions of nonexistent or misidentified objects. Prior work has partially mitigated this via auxiliary training objectives or external modules, but challenges remain in terms of scalability, adaptability, and model independence. To address these limitations, we propose Adaptive Token Ensemble Decoding (ATED), a training-free, token-level ensemble framework that mitigates hallucination by aggregating predictions from multiple LVLMs during inference. ATED dynamically computes uncertainty-based weights for each model, reflecting their reliability at each decoding step. It also integrates diverse decoding paths to improve contextual grounding and semantic consistency. Experiments on standard hallucination detection benchmarks demonstrate that ATED significantly outperforms state-of-the-art methods, reducing hallucination without compromising fluency or relevance. Our findings highlight the benefits of adaptive ensembling and point to a promising direction for improving LVLM robustness in high-stakes applications. The code is available at https://github.com/jinlin2021/ATED.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
しかし、それらはオブジェクト幻覚の傾向があり、存在していない、または誤認されたオブジェクトの記述を生成する。
以前の作業では、補助的なトレーニング目標や外部モジュールを通じて、これを部分的に緩和していましたが、スケーラビリティ、適応性、モデル独立性の面では課題が残っています。
これらの制約に対処するために,複数のLVLMからの予測を集約することで幻覚を緩和する,トレーニング不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ATED)を提案する。
atedは、各モデルの不確実性ベースの重みを動的に計算し、その信頼性を各デコードステップで反映する。
また、さまざまなデコードパスを統合して、コンテキストグラウンドとセマンティック一貫性を改善する。
標準的な幻覚検出ベンチマークの実験では、atedは最先端の手法を著しく上回り、流布や関連性を損なうことなく幻覚を減少させることを示した。
本研究は, 適応アンサンブルの利点と, LVLMロバスト性向上に期待できる方向性を示すものである。
コードはhttps://github.com/jinlin2021/ATEDで公開されている。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。
本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。
提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T06:35:43Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。