論文の概要: MARS: Margin-Aware Reward-Modeling with Self-Refinement
- arxiv url: http://arxiv.org/abs/2602.17658v1
- Date: Thu, 19 Feb 2026 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.41885
- Title: MARS: Margin-Aware Reward-Modeling with Self-Refinement
- Title(参考訳): MARS:セルフリファインメントによるMargin-Aware Reward-Modeling
- Authors: Payel Bhattacharjee, Osvaldo Simeone, Ravi Tandon,
- Abstract要約: リワードモデリングは、RLHFやRLAIFを含む現代のアライメントパイプラインのコアコンポーネントである。
本稿では,報酬モデルのあいまいなモードと失敗モードを明示的に対象とする適応的,余分な拡張とサンプリング戦略を提案する。
この戦略が損失関数の平均曲率を増大させ、情報を高め、条件付けを改善することを示す理論的保証を提供する。
- 参考スコア(独自算出の注目度): 30.002638947792416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reward modeling is a core component of modern alignment pipelines including RLHF and RLAIF, underpinning policy optimization methods including PPO and TRPO. However, training reliable reward models relies heavily on human-labeled preference data, which is costly and limited, motivating the use of data augmentation. Existing augmentation approaches typically operate at the representation or semantic level and remain agnostic to the reward model's estimation difficulty. In this paper, we propose MARS, an adaptive, margin-aware augmentation and sampling strategy that explicitly targets ambiguous and failure modes of the reward model. Our proposed framework, MARS, concentrates augmentation on low-margin (ambiguous) preference pairs where the reward model is most uncertain, and iteratively refines the training distribution via hard-sample augmentation. We provide theoretical guarantees showing that this strategy increases the average curvature of the loss function hence enhance information and improves conditioning, along with empirical results demonstrating consistent gains over uniform augmentation for robust reward modeling.
- Abstract(参考訳): リワードモデリングは、RLHFやRLAIFを含む現代のアライメントパイプラインのコアコンポーネントであり、PPOやTRPOといったポリシー最適化手法の基盤となっている。
しかし、信頼性の高い報酬モデルのトレーニングは、コストと制限がかかり、データ拡張の利用を動機付ける人間ラベルの嗜好データに大きく依存する。
既存の拡張アプローチは、通常、表現や意味レベルで動作し、報酬モデルの見積の難しさに気付かないままである。
本稿では,アダプティブ・マージン・アグメンテーション・サンプリング・ストラテジーであるMARSを提案する。
提案フレームワークであるMARSは、報酬モデルが最も不確実な低マージン(あいまいな)選好ペアに集中し、ハードサンプル増補によるトレーニング分布を反復的に洗練する。
我々は,この戦略が損失関数の平均曲率を増大させ情報を高め,条件付けを改善することを示す理論的保証と,ロバスト報酬モデリングのための一様増倍よりも一貫した利得を示す経験的結果を提供する。
関連論文リスト
- Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。