論文の概要: Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time
- arxiv url: http://arxiv.org/abs/2605.01766v1
- Date: Sun, 03 May 2026 07:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.928509
- Title: Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time
- Title(参考訳): 推論時間における関連伝播によるマルチモーダルLLMの幻覚の緩和
- Authors: Itai Allouche, Joseph Keshet,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、AIの展望に革命をもたらした。
これらのモデルは、しばしば幻覚に悩まされ、提供された知覚入力から分岐する出力を生成する。
マルチモーダルグラウンド化を促進するために,Learning Inference-time Modality Enhancement (LIME)を提案する。
- 参考スコア(独自算出の注目度): 9.870369982132678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have revolutionized the landscape of AI, demonstrating impressive capabilities in tackling complex vision and audio-language tasks. However, a critical challenge remains: these models often suffer from hallucinations, generating outputs that diverge from the provided perceptual inputs. This tendency stems from an inherent imbalance in modality utilization during inference, where the dominance of textual tokens undermines the potential of perceptual inputs. As a result, the model frequently resorts to textual language priors at the expense of grounded evidence. To tackle this issue, we propose Learning Inference-time Modality Enhancement (LIME), a training-free framework designed to bolster multimodal grounding by explicitly enhancing modality usage during decoding. LIME leverages Layer-wise Relevance Propagation (LRP) to quantify token-level contributions and defines a relevance-based objective that promotes increased reliance on perceptual inputs. This objective is enforced through inference-time updates to the model's key-value representations, without modifying model parameters or requiring additional training data. We evaluate LIME across multiple multimodal benchmarks in both vision and audio domains, demonstrating consistent reductions in hallucinations and enhanced grounding while preserving generation quality. Further analysis shows that LIME increases modality contribution and produces more localized and semantically aligned relevance patterns.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)はAIの風景に革命をもたらし、複雑なビジョンとオーディオ言語タスクに対処する素晴らしい能力を誇示している。
しかし、重要な課題が残る:これらのモデルはしばしば幻覚に悩まされ、提供された知覚入力から分岐する出力を生成する。
この傾向は、テキストトークンの優位性が知覚入力の可能性を損なう、推論中のモダリティ利用における固有の不均衡に起因する。
結果として、このモデルは、根拠のある証拠を犠牲にして、しばしばテキスト言語に頼っている。
この問題に対処するために,復号時のモダリティ使用率を明確に向上させることで,マルチモーダルグラウンド化を促進するための学習自由度フレームワークであるLearning Inference-time Modality Enhancement (LIME)を提案する。
LIMEは、LRP(Layer-wise Relevance Propagation)を活用してトークンレベルのコントリビューションを定量化し、知覚入力への依存の増大を促進する関連ベースの目的を定義する。
この目的は、モデルパラメータを変更したり、追加のトレーニングデータを必要とすることなく、モデルのキー-値表現を推論時に更新することで実現される。
視覚領域と音声領域の複数のマルチモーダル・ベンチマークでLIMEを評価し,生成品質を保ちながら,幻覚の持続的な減少とグラウンド化の強化を実証した。
さらなる分析により、LIMEはモダリティの寄与を増大させ、より局所的でセマンティックに整合した関連パターンを生成することが示されている。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning [12.903267405917388]
マルチモーダル大規模言語モデル(MLLM)であるMADIを提案する。
合成および実世界のベンチマーク実験により、MADIは汎用LLMと時系列特化MLLMを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-29T09:13:46Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。