論文の概要: Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
- arxiv url: http://arxiv.org/abs/2509.21500v1
- Date: Thu, 25 Sep 2025 19:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.964935
- Title: Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
- Title(参考訳): 台座の座談会:大規模言語モデルの学習後モデルのための効果的なルーブリック・ベース・リワードモデリング
- Authors: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin,
- Abstract要約: 強化微調整 (Reinforcement fine-tuning, RFT) は、ポリシーモデルが報酬信号をハックして高いスコアを得るという、過度な最適化に悩まされることが多い。
我々の理論的分析は、高いリワードテールにおける報酬の誤特定に鍵がかかっていることを示している。
政治以外の見習いは入手し易いが、彼らのナイーティブな訓練は、私たちが調整しようとしている政策に対して、不明確な報酬を与える。
- 参考スコア(独自算出の注目度): 39.36546278921025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement fine-tuning (RFT) often suffers from \emph{reward over-optimization}, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
- Abstract(参考訳): Reinforcement fine-tuning (RFT) は、しばしば 'emph{reward over-optimization} に悩まされる。
我々の理論的分析は、その鍵は報酬の相違にあることを示している: 優れた応答と単に偉大な応答を確実に区別できない。
このことは、ハイリワード領域に注力する動機になります。
しかし、このような尾の例はLLMのベースでは乏しい。
例えば、より強力なモデルや書き直しから得られるような)非政治の先例は入手が容易だが、彼らのナイーティブなトレーニングは、私たちが調整しようとしている政策に対して、不明確な報酬をもたらす。
この問題に対処するため,古風な報酬について検討する。
設計上は、ルーリックは非政治的な例を活用できるが、アーティファクトに敏感なままである。
高いリワードテールを捉えたルーブリックを抽出するためには、大きな応答と多様な応答を区別することの重要性を強調し、このアイデアを実装するワークフローを導入する。
我々は,ルーブリックをベースとした報酬が過度な報酬の最適化を著しく軽減し,LLM後トレーニングの改善を効果的に提供することを実証的に実証した。
私たちのコードはhttps://github.com/Jun-Kai-Zhang/rubrics.gitでアクセスできます。
関連論文リスト
- Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。
SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。
実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:09:33Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - A Critical Look At Tokenwise Reward-Guided Text Generation [23.908449840589284]
フルシーケンスでトレーニングされた報酬モデルは、スコアリング部分シーケンスと互換性がないことを示す。
本稿では,部分列を明示的に学習するBradley-Terry報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T00:19:40Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。