論文の概要: Reward Model Routing in Alignment
- arxiv url: http://arxiv.org/abs/2510.02850v1
- Date: Fri, 03 Oct 2025 09:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.338758
- Title: Reward Model Routing in Alignment
- Title(参考訳): アライメントにおけるリワードモデルルーティング
- Authors: Xinle Wu, Yao Lu,
- Abstract要約: ほとんどのパイプラインは単一の報酬モデル(RM)に依存しており、アライメントの品質を制限し、過度に適合するリスクがある。
最近の研究は、RMルーティング、すなわち、候補プールからRMを動的に選択し、相補的な強度を活用することを探っている。
オフラインのRM強度学習とオンラインベイズ選択を組み合わせたハイブリッドルーティングフレームワークであるベイズベクトルを提案する。
- 参考スコア(独自算出の注目度): 5.432688539756747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human or AI feedback (RLHF / RLAIF) has become the standard paradigm for aligning large language models (LLMs). However, most pipelines rely on a single reward model (RM), limiting alignment quality and risking overfitting. Recent work explores RM routing--dynamically selecting an RM from a candidate pool to exploit complementary strengths while maintaining $O(1)$ RM calls--but existing methods suffer from cold-start and insufficient exploration. We propose BayesianRouter, a hybrid routing framework that combines offline RM strengths learning with online Bayesian selection. In the offline stage, a multi-task router is trained on preference data to estimate per-RM reliability. In the online stage, a Bayesian Thompson sampling router performs per-query RM selection, initializing RM-specific weight vectors with offline embeddings as Gaussian priors and adaptively updating their posteriors with online rewards to adapt to the evolving policy distribution. Extensive experiments on instruction-following (AlpacaEval-2, Arena-Hard, MT-Bench) and reasoning (GSM8K, MMLU) benchmarks show that BayesianRouter consistently outperforms individual RMs, RM ensembling, and existing routing methods.
- Abstract(参考訳): 人間やAIからのフィードバック(RLHF / RLAIF)からの強化学習は、大規模言語モデル(LLM)の整合のための標準パラダイムとなっている。
しかしながら、ほとんどのパイプラインは単一の報酬モデル(RM)に依存しており、アライメントの品質を制限し、過度に適合するリスクがある。
最近の研究は、RMルーティング、すなわち候補プールからRMを動的に選択して、$O(1)$ RMコールを維持しながら相補的な強度を利用する方法を探っているが、既存の手法は、コールドスタートと不十分な探査に悩まされている。
オフラインのRM強度学習とオンラインベイズ選択を組み合わせたハイブリッドルーティングフレームワークBayesianRouterを提案する。
オフライン段階では、マルチタスクルータが好みデータに基づいて訓練され、RM当たりの信頼性が推定される。
オンラインの段階では、ベイジアントンプソンサンプリングルータは、クエリごとのRM選択を行い、RM固有の重みベクトルをオフライン埋め込みとして初期化し、その後部をオンライン報酬で適応的に更新して、進化するポリシー分布に適応させる。
命令追従(AlpacaEval-2, Arena-Hard, MT-Bench)と推論(GSM8K, MMLU)のベンチマークによる大規模な実験は、ベイジアンルーターが個々のRM、RMアンサンブルおよび既存のルーティング手法を一貫して上回っていることを示している。
関連論文リスト
- Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [56.93583799109029]
本稿では,マルチアームバンディット問題として報酬モデル選択を行うLASeRを提案する。
LASeRは反復トレーニングを促進し、3つのデータセットに対してLlama-3-8Bの平均精度を絶対的に向上することを示す。
また、RAeRはRMスコアアンサンブルベースラインよりも72.69%のAlpacaEval勝利率を達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T16:46:38Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。