論文の概要: Bayesian Preference Learning for Test-Time Steerable Reward Models
- arxiv url: http://arxiv.org/abs/2602.08819v1
- Date: Mon, 09 Feb 2026 15:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.339215
- Title: Bayesian Preference Learning for Test-Time Steerable Reward Models
- Title(参考訳): テスト時間ステアブルリワードモデルに対するベイズ予測学習
- Authors: Jiwoo Hong, Shao Tang, Zhipeng Wang,
- Abstract要約: そこで本研究では,コンテキスト内での嗜好の実証を通じて,テストタイムのステアビリティを実現する変動型インコンテキスト・リワード・モデリングを提案する。
I CRMがSafeRLHFで34%,RM-Benchで9%の精度を得ることを示す。
さらに,RL学習におけるI CRMの実践的適用性について検討し,従来のRMよりも高い精度で検証可能な報酬を効果的に符号化できることを示した。
- 参考スコア(独自算出の注目度): 9.817455218872645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are central to aligning language models with human preferences via reinforcement learning (RL). As RL is increasingly applied to settings such as verifiable rewards and multi-objective alignment, RMs are expected to encode more complex and multifaceted preference distributions. However, classifier RMs remain static once trained, limiting their adaptability at test time. We propose Variational In-Context Reward Modeling (ICRM), a novel Bayesian reward modeling objective that enables test-time steerability via in-context preference demonstrations. ICRM casts reward modeling as amortized variational inference over a latent preference probability under the Bradley-Terry model using a conjugate Beta prior. We show that ICRM adapt to unseen preference distributions at test time for both single and multi-objective settings. With more in-context demonstrations, ICRM gains 34% accuracy on SafeRLHF and 9% accuracy on RM-Bench in the single-objective setting, while widening the Pareto frontier with a 4% gain in hypervolume on helpfulness and refusal benchmarks. We further study the practical applicability of ICRM for RL training, showing that it can effectively encode verifiable rewards by outperforming a conventional RM in math reasoning. Finally, we provide theoretical guarantees that the variational objective admits a global interior optimum with finite confidence, and we analyze how KL regularization mitigates reward over-optimization.
- Abstract(参考訳): リワードモデルは、強化学習(RL)を通じて言語モデルと人間の嗜好を整合させる中心となる。
RLは、検証可能な報酬や多目的アライメントといった設定にますます適用されているため、RMはより複雑で多面的な選好分布を符号化することが期待されている。
しかし、分類器RMは一度訓練されたままで、テスト時の適応性は制限されている。
In-text preference demonstrations によるテスト時間ステアビリティを実現する新しいベイズ報酬モデリングの目的として,ICRM の変分型インコンテキストリワードモデリングを提案する。
ICRMは、共役ベータを用いたBradley-Terryモデルの下での遅延選好確率に対して、報酬モデリングを償却変分推論(amortized variational inference)として採用している。
ICRMは単目的設定と多目的設定の両方でテスト時に見当たらない好み分布に適応することを示す。
よりコンテキスト内でのデモにより、ICRMはSafeRLHFで34%の精度、単一目的設定でRM-Benchで9%の精度を向上し、パレートフロンティアを拡大し、補助性と拒否ベンチマークでハイパーボリュームで4%の増加を達成した。
さらに,RL学習におけるICRMの実践的適用性について検討し,従来のRMよりも高い精度で検証可能な報酬を効果的に符号化できることを示した。
最後に、変分目的が有限信頼で大域的内部最適を許容する理論的保証を与え、KL正則化が過度な最適化を緩和する方法について分析する。
関連論文リスト
- Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning [13.30869366778628]
CRMは単一のブラックボックス報酬モデルを置き換えるフレームワークであり、専門家評価者の調整されたチームに置き換えられている。
トレーニングとアセスメントをサポートするために、CRMの協調的な構造に沿ったベンチマークとトレーニングスイートである rewardBenchを紹介します。
論文 参考訳(メタデータ) (2025-11-20T10:12:34Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。