論文の概要: IRIS: Implicit Reward-Guided Internal Sifting for Mitigating Multimodal Hallucination
- arxiv url: http://arxiv.org/abs/2602.01769v2
- Date: Tue, 03 Feb 2026 11:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.861798
- Title: IRIS: Implicit Reward-Guided Internal Sifting for Mitigating Multimodal Hallucination
- Title(参考訳): IRIS:マルチモーダル幻覚の緩和のためのインプシブ・リワードガイドインテリア・シフティング
- Authors: Yuanshuai Li, Yuping Yan, Jirui Han, Fei Ming, Lingjuan Lv, Yaochu Jin,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の幻覚化は依然として根本的な課題である
IRIS(Implicit Reward-Guided Internal Sifting)を提案する。これは、ネイティブな対数確率空間における暗黙の報酬を利用して、完全な情報密度を保ち、内部モーダル競争を捉える。
IRISは、5.7kサンプルのみを使用して主要なベンチマークで高い競争力を発揮する。
- 参考スコア(独自算出の注目度): 18.78776489667507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination remains a fundamental challenge for Multimodal Large Language Models (MLLMs). While Direct Preference Optimization (DPO) is a key alignment framework, existing approaches often rely heavily on costly external evaluators for scoring or rewriting, incurring off-policy learnability gaps and discretization loss. Due to the lack of access to internal states, such feedback overlooks the fine-grained conflicts between different modalities that lead to hallucinations during generation. To address this issue, we propose IRIS (Implicit Reward-Guided Internal Sifting), which leverages continuous implicit rewards in the native log-probability space to preserve full information density and capture internal modal competition. This on-policy paradigm eliminates learnability gaps by utilizing self-generated preference pairs. By sifting these pairs based on multimodal implicit rewards, IRIS ensures that optimization is driven by signals that directly resolve modal conflicts. Extensive experiments demonstrate that IRIS achieves highly competitive performance on key hallucination benchmarks using only 5.7k samples, without requiring any external feedback during preference alignment. These results confirm that IRIS provides an efficient and principled paradigm for mitigating MLLM hallucinations.
- Abstract(参考訳): 幻覚は、MLLM(Multimodal Large Language Models)の根本的な課題である。
直接選好最適化(DPO)は重要なアライメントフレームワークであるが、既存のアプローチは多くの場合、得点や書き直しに費用がかかる外部評価器に大きく依存する。
内部状態へのアクセスが不足しているため、このようなフィードバックは、世代間の幻覚につながる様々なモダリティ間の微妙な衝突を見逃している。
この問題に対処するため,IRIS (Implicit Reward-Guided Internal Sifting) を提案する。
このオン政治パラダイムは、自己生成された選好ペアを利用することで、学習可能性ギャップを解消する。
これらのペアをマルチモーダルな暗黙の報酬に基づいて分割することで、IRISは最適化がモーダルの競合を直接解決する信号によって駆動されることを保証する。
大規模な実験では、IRISは5.7kサンプルのみを使用して主要な幻覚ベンチマークで高い競争力を発揮する。
これらの結果は、IRISがMLLM幻覚を緩和するための効率的で原則化されたパラダイムを提供することを確認した。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Unbiased Reasoning for Knowledge-Intensive Tasks in Large Language Models via Conditional Front-Door Adjustment [14.539964360184086]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示しているが、知識集約的なタスクではうまく機能しない。
本稿では,クエリと応答間の因果効果の偏りのない推定を可能にする,新しい因果的プロンプトフレームワークである条件付きフロントドアプロンプト(CFD-Prompting)を提案する。
論文 参考訳(メタデータ) (2025-08-23T05:52:39Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - From Randomized Response to Randomized Index: Answering Subset Counting Queries with Local Differential Privacy [27.59934932590226]
ローカル微分プライバシ(LDP)は、個々のデータプライバシを保護するための主要なプライバシモデルである。
我々は、値の摂動ではなく、値のインデックスにランダム化を適用する別のアプローチを提案する。
乱数化インデックスのデニビリティに着想を得て,集合値データに対するサブセットカウントクエリに応答するCRIADを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。