論文の概要: Entropy-Guided Data-Efficient Training for Multimodal Reasoning Reward Models
- arxiv url: http://arxiv.org/abs/2602.01884v1
- Date: Mon, 02 Feb 2026 09:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.055917
- Title: Entropy-Guided Data-Efficient Training for Multimodal Reasoning Reward Models
- Title(参考訳): マルチモーダル推論リワードモデルのためのエントロピー誘導型データ効率訓練
- Authors: Shidong Yang, Tongwen Huang, Hao Wen, Yong Wang, Li Chen, Xiangxiang Chu,
- Abstract要約: マルチモーダル推論報酬モデルのための新しいエントロピー誘導訓練(EGT)手法を提案する。
EGTは,(1)信頼できないサンプルの影響を軽減するために,(1)エントロピー誘導型データキュレーションと(2)より複雑なサンプルを段階的に導入するエントロピー誘導型トレーニング戦略の2つの戦略を組み合わせる。
- 参考スコア(独自算出の注目度): 21.775397720658535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reward models are crucial for aligning multimodal large language models with human preferences. Recent works have incorporated reasoning capabilities into these models, achieving promising results. However, training these models suffers from two critical challenges: (1) the inherent noise in preference datasets, which degrades model performance, and (2) the inefficiency of conventional training methods, which ignore the differences in sample difficulty. In this paper, we identify a strong correlation between response entropy and accuracy, indicating that entropy can serve as a reliable and unsupervised proxy for annotation noise and sample difficulty. Based on this insight, we propose a novel Entropy-Guided Training (EGT) approach for multimodal reasoning reward models, which combines two strategies: (1) entropy-guided data curation to mitigate the impact of unreliable samples, and (2) an entropy-guided training strategy that progressively introduces more complex examples. Extensive experiments across three benchmarks show that the EGT-trained model consistently outperforms state-of-the-art multimodal reward models.
- Abstract(参考訳): マルチモーダル報酬モデルは、多モーダル大言語モデルと人間の嗜好の整合に不可欠である。
最近の研究はこれらのモデルに推論機能を導入し、有望な成果を上げている。
しかし、これらのモデルのトレーニングには、(1)モデル性能を低下させる嗜好データセット固有のノイズ、(2)サンプル難易度の違いを無視する従来のトレーニング手法の非効率性、の2つの重要な課題がある。
本稿では,応答エントロピーと精度の相関が強く,アノテーションのノイズやサンプルの難易度を指標として,エントロピーが信頼性と教師なしのプロキシとして機能することを示す。
この知見に基づいて,(1)信頼できないサンプルの影響を緩和するエントロピー誘導型データキュレーション,(2)より複雑な事例を段階的に導入するエントロピー誘導型トレーニング戦略の2つの戦略を組み合わせた,マルチモーダル推論報酬モデルのための新しいエントロピー誘導型トレーニング(EGT)手法を提案する。
3つのベンチマークによる大規模な実験により、EGT訓練モデルは最先端のマルチモーダル報酬モデルより一貫して優れていることが示された。
関連論文リスト
- Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum [39.57901536686932]
MCoT(Multimodal Chain-of-Thought)プロンプトは、ランダムまたは手動で選択された例によって制限されることが多い。
本稿では,「バランスのとれた教養」という教育原理に着想を得た新しい枠組みを提案する。
提案手法は, モデル認識難易度を, アクティブな学習環境における予測不一致による定量化と, 任意のモデルから独立して各質問画像対の難易度を測定する内在的なサンプル複雑性の2つの相補的信号を統合する。
論文 参考訳(メタデータ) (2025-08-26T04:32:15Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。