Fugu-MT 論文翻訳(概要): ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding

論文の概要: ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding

arxiv url: http://arxiv.org/abs/2507.04943v1
Date: Mon, 07 Jul 2025 12:40:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.418609
Title: ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding
Title（参考訳）: ReLoop: "Seeing Twice and Thinking Backwards" をクローズドループトレーニングによるマルチモーダル理解における幻覚の緩和
Authors: Jianjiang Yang, Ziyan Huang, Yanshu Li,
Abstract要約: MLLM(Multimodal Large Language Models)は、オープンな視覚的質問応答において顕著な進歩を遂げている。 MLLMは幻覚に弱いままであり、信頼性と事実の整合性にとって重要な課題である。クロスモーダル理解のためのマルチモーダル整合性を促進する統合クローズドループトレーニングフレームワークであるReLoopを提案する。
参考スコア（独自算出の注目度）: 0.053801353100098995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in open-ended visual question answering, they remain vulnerable to hallucinations. These are outputs that contradict or misrepresent input semantics, posing a critical challenge to the reliability and factual consistency. Existing methods often rely on external verification or post-hoc correction, lacking an internal mechanism to validate outputs directly during training. To bridge this gap, we propose ReLoop, a unified closed-loop training framework that encourages multimodal consistency for cross-modal understanding in MLLMs. ReLoop adopts a ring-shaped structure that integrates three complementary consistency feedback mechanisms, obliging MLLMs to "seeing twice and thinking backwards". Specifically, ReLoop employs the frozen Consistency Feedback Plugin (CFP), comprising semantic reconstruction, visual description, and an attention supervision module for attention alignment. These components collectively enforce semantic reversibility, visual consistency, and interpretable attention, enabling the model to correct its outputs during training. Extensive evaluations and analyses demonstrate the effectiveness of ReLoop in reducing hallucination rates across multiple benchmarks, establishing a robust method for hallucination mitigation in MLLMs. We will release our source code and data in the camera-ready version.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、オープンエンドの視覚的質問応答において顕著な進歩を遂げているが、幻覚に弱いままである。これらは、入力セマンティクスに矛盾したり、誤った表現をしたりする出力であり、信頼性と事実整合性に重要な課題を生じさせる。既存の手法はしばしば外部の検証やポストホックの修正に依存しており、訓練中に出力を直接検証する内部メカニズムが欠如している。このギャップを埋めるため、我々はMLLMにおけるクロスモーダル理解のためのマルチモーダル一貫性を促進する統合クローズドループトレーニングフレームワークであるReLoopを提案する。 ReLoopは3つの相補的な整合性フィードバック機構を統合したリング状の構造を採用しており、MLLMは「2回見て、後ろ向きに考える」ことを義務付けている。具体的には、ReLoopでは、セマンティック再構築、視覚的記述、アテンションアライメントのためのアテンションインスペクションモジュールを含む、凍結した一貫性フィードバックプラグイン(CFP)を採用している。これらのコンポーネントは、集合的に意味的可逆性、視覚的整合性、解釈可能な注意を強制し、トレーニング中にモデルがその出力を修正する。広範囲な評価と分析は、複数のベンチマークにおける幻覚率の低減にReLoopの有効性を示し、MLLMにおける幻覚緩和のためのロバストな方法を確立した。ソースコードとデータは、カメラ対応バージョンでリリースします。

関連論文リスト

Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。 MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文参考訳（メタデータ） (2025-07-02T14:59:35Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。 IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文参考訳（メタデータ） (2025-02-03T05:08:35Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。