Fugu-MT 論文翻訳(概要): Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

論文の概要: Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2602.21441v1
Date: Tue, 24 Feb 2026 23:35:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.641135
Title: Causal Decoding for Hallucination-Resistant Multimodal Large Language Models
Title（参考訳）: 幻覚耐性多モーダル大言語モデルに対する因果復号法
Authors: Shiwei Tan, Hengyi Wang, Weiyi Qin, Qi Xu, Zhigang Hua, Hao Wang,
Abstract要約: 本稿では,創成時に目的の因果的介入を適用した因果的復号化フレームワークを提案する。記述的品質を維持しながら、デコーディングのダイナミクスを素早い依存関係に書き換えることで、偽のオブジェクトを減らすことができる。
参考スコア（独自算出の注目度）: 29.52210160586723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) deliver detailed responses on vision-language tasks, yet remain susceptible to object hallucination (introducing objects not present in the image), undermining reliability in practice. Prior efforts often rely on heuristic penalties, post-hoc correction, or generic decoding tweaks, which do not directly intervene in the mechanisms that trigger object hallucination and thus yield limited gains. To address this challenge, we propose a causal decoding framework that applies targeted causal interventions during generation to curb spurious object mentions. By reshaping the decoding dynamics to attenuate spurious dependencies, our approach reduces false object tokens while maintaining descriptive quality. Across captioning and QA benchmarks, our framework substantially lowers object-hallucination rates and achieves state-of-the-art faithfulness without degrading overall output quality.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、視覚言語タスクに関する詳細な応答を提供するが、オブジェクト幻覚(画像に存在しないオブジェクトの導入)の影響を受けにくく、実際は信頼性を損なう。それまでの努力は、しばしばヒューリスティックな罰則、ポストホック修正、あるいは一般的な復号法に頼っていた。この課題に対処するため,本研究では,創成時に目的の因果的介入を適用する因果的復号化フレームワークを提案する。素早い依存関係を減らすためにデコードダイナミクスを書き換えることによって、私たちのアプローチは記述的品質を維持しながら偽のオブジェクトトークンを減らす。キャプションとQAベンチマーク全体にわたって、我々のフレームワークは、オブジェクトのハロシン化率を大幅に低下させ、全体的な出力品質を低下させることなく、最先端の忠実性を達成する。

関連論文リスト

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文参考訳（メタデータ） (2026-02-27T14:18:51Z)
Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。 textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文参考訳（メタデータ） (2026-02-03T11:00:55Z)
Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文参考訳（メタデータ） (2025-10-21T06:11:24Z)
IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文参考訳（メタデータ） (2025-08-05T14:05:15Z)
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。 Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文参考訳（メタデータ） (2025-06-25T06:44:07Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-26T08:36:10Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:24:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。