論文の概要: Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment
- arxiv url: http://arxiv.org/abs/2510.05283v1
- Date: Mon, 06 Oct 2025 18:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.942534
- Title: Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment
- Title(参考訳): モノリシック・リワードを超えて:MLLMアライメントのためのハイブリッド・マルチアスペクト・リワード最適化
- Authors: Radha Gulhane, Sathish Reddy Indurthi,
- Abstract要約: 相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
- 参考スコア(独自算出の注目度): 1.8552770604791606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning multimodal large language models (MLLMs) with human preferences often relies on single-signal, model-based reward methods. Such monolithic rewards often lack confidence calibration across domain-specific tasks, fail to capture diverse aspects of human preferences, and require extensive data annotation and reward model training. In this work, we propose a hybrid reward modeling framework that integrates complementary reward paradigms: (i) model-based rewards, where a learned reward model predicts scalar or vector scores from synthetic and human feedback, and (ii) rule-based rewards, where domain-specific heuristics provide explicit correctness signals with confidence. Beyond accuracy, we further incorporate multi-aspect rewards to enforce instruction adherence and introduce a generalized length-penalty reward to stabilize training and improve performance. The proposed framework provides a flexible and effective approach to aligning MLLMs through reinforcement learning policy optimization. Our experiments show consistent improvements across different multimodal benchmarks when applying hybrid and multi-aspect reward modeling. Our best performing model in the 3B family achieves an overall average improvement of ~9.5% across general and math reasoning tasks. Focusing specifically on mathematical benchmarks, the model achieves a significant average improvement of ~16%, highlighting its effectiveness in mathematical reasoning and problem solving.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)を人間の好みに合わせることは、しばしば単一信号のモデルベースの報酬法に依存する。
このようなモノリシックな報酬は、ドメイン固有のタスク間での信頼性のキャリブレーションを欠くことが多く、人間の好みのさまざまな側面を捉えることができず、広範なデータアノテーションと報酬モデルトレーニングを必要とします。
本稿では,相補的な報酬パラダイムを統合したハイブリッド報酬モデリングフレームワークを提案する。
一 モデルに基づく報酬で、学習した報酬モデルが合成及び人的フィードバックからスカラー又はベクトルスコアを予測する場合
(II)ルールに基づく報酬では、ドメイン固有のヒューリスティックが信頼を持って明確な正当性信号を提供する。
精度を超えて、命令の順守を強制するためにマルチアスペクト報酬を更に取り入れ、トレーニングの安定化と性能向上のために一般化された長額報酬を導入する。
提案するフレームワークは、強化学習ポリシー最適化によるMLLMの整合性に柔軟かつ効果的なアプローチを提供する。
本実験は、ハイブリッドおよびマルチアスペクト報酬モデルの適用において、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
数学的なベンチマークに特化して、このモデルはおよそ16%の平均的な改善を実現し、数学的推論と問題解決におけるその有効性を強調している。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - MOSLIM:Align with diverse preferences in prompts through reward classification [6.6431471703308915]
そこで本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目的をプロンプトすることで柔軟に制御し、SFTフェーズ中に好みのトレーニングを必要としない。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
論文 参考訳(メタデータ) (2025-05-24T12:22:21Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。
MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文 参考訳(メタデータ) (2025-02-25T23:22:12Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。