論文の概要: T-REG: Preference Optimization with Token-Level Reward Regularization
- arxiv url: http://arxiv.org/abs/2412.02685v1
- Date: Tue, 03 Dec 2024 18:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:23.11868
- Title: T-REG: Preference Optimization with Token-Level Reward Regularization
- Title(参考訳): T-REG:Token-Level Reward正則化による優先度最適化
- Authors: Wenxuan Zhou, Shujian Zhang, Lingxiao Zhao, Tao Meng,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
- 参考スコア(独自算出の注目度): 35.07328450591201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has been crucial in aligning large language models (LLMs) with human values. Traditionally, RLHF involves generating responses to a query and using a reward model to assign a reward to the entire response. However, this approach faces challenges due to its reliance on a single, sparse reward, which makes it challenging for the model to identify which parts of the sequence contribute most significantly to the final reward. Recent methods have attempted to address this limitation by introducing token-level rewards. However, these methods often rely on either a trained credit assignment model or AI annotators, raising concerns about the quality and reliability of the rewards. In this paper, we propose token-level reward regularization (T-REG), a novel approach that leverages both sequence-level and token-level rewards for preference optimization. Harnessing the self-refinement capabilities of LLMs, our method uses contrastive prompting to enable LLMs to self-generate token-level rewards. These self-generated rewards then act as reward regularization, guiding the model to more effectively distribute sequence-level rewards across tokens. This facilitates better token-level credit assignment and enhances alignment performance. Experiments on the instruction following benchmarks, including Alpaca Eval 2 and Arena-Hard, show that our method consistently outperforms baseline methods by up to 3.8% and 4.4%, respectively. We will release the code and models at https://github.com/wzhouad/T-REG.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値の整合に不可欠である。
伝統的に、RLHFはクエリに対するレスポンスを生成し、報酬モデルを使用してレスポンス全体に報酬を割り当てる。
しかし、このアプローチは単一のスパース報酬に依存しているため、課題に直面しており、モデルのどの部分が最終報酬に最も大きく寄与しているかを特定することは困難である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
しかしながら、これらの手法は訓練された信用代入モデルかAIアノテータのいずれかに依存し、報酬の品質と信頼性に関する懸念を提起することが多い。
本稿では,トークンレベルの報酬を優先最適化するために,シーケンスレベルの報酬とトークンレベルの報酬の両方を活用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
LLMの自己補充能力に配慮し,トークンレベルの報酬を自己生成できるコントラストプロンプトを用いた。
これらの自己生成報酬は報酬の正規化として働き、トークン間でより効果的にシーケンスレベルの報酬を分配するようモデルに誘導する。
これによりトークンレベルのクレジット割り当てが向上し、アライメントパフォーマンスが向上する。
Alpaca Eval 2 や Arena-Hard などのベンチマークによる学習結果から,提案手法はベースライン手法を最大3.8%,Arena-Hard が4.4%向上することがわかった。
コードとモデルはhttps://github.com/wzhouad/T-REG.comで公開します。
関連論文リスト
- AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation [46.72611855060883]
トークンレベルの報酬最適化のためのRLHF等価蒸留法を提案する。
実験の結果、既存の方法よりもAlignDistilの方が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T17:57:09Z) - Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。
すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。
提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文 参考訳(メタデータ) (2025-03-01T14:11:04Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。
ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。
これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。
提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文 参考訳(メタデータ) (2025-02-03T15:43:48Z) - Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - A Critical Look At Tokenwise Reward-Guided Text Generation [23.908449840589284]
フルシーケンスでトレーニングされた報酬モデルは、スコアリング部分シーケンスと互換性がないことを示す。
本稿では,部分列上でBradley-Terry報酬モデルを明示的にトレーニングし,復号時における暗黙的なポリシから自己回帰的にサンプルする手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T00:19:40Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Bayesian Reward Models for LLM Alignment [26.612181012468167]
我々は、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルを訓練する。
得られた不確実性推定は,BoNサンプリングにおける報酬過小評価を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T18:20:59Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。