論文の概要: T-REG: Preference Optimization with Token-Level Reward Regularization
- arxiv url: http://arxiv.org/abs/2412.02685v1
- Date: Tue, 03 Dec 2024 18:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:27.098060
- Title: T-REG: Preference Optimization with Token-Level Reward Regularization
- Title(参考訳): T-REG:Token-Level Reward正則化による優先度最適化
- Authors: Wenxuan Zhou, Shujian Zhang, Lingxiao Zhao, Tao Meng,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
- 参考スコア(独自算出の注目度): 35.07328450591201
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has been crucial in aligning large language models (LLMs) with human values. Traditionally, RLHF involves generating responses to a query and using a reward model to assign a reward to the entire response. However, this approach faces challenges due to its reliance on a single, sparse reward, which makes it challenging for the model to identify which parts of the sequence contribute most significantly to the final reward. Recent methods have attempted to address this limitation by introducing token-level rewards. However, these methods often rely on either a trained credit assignment model or AI annotators, raising concerns about the quality and reliability of the rewards. In this paper, we propose token-level reward regularization (T-REG), a novel approach that leverages both sequence-level and token-level rewards for preference optimization. Harnessing the self-refinement capabilities of LLMs, our method uses contrastive prompting to enable LLMs to self-generate token-level rewards. These self-generated rewards then act as reward regularization, guiding the model to more effectively distribute sequence-level rewards across tokens. This facilitates better token-level credit assignment and enhances alignment performance. Experiments on the instruction following benchmarks, including Alpaca Eval 2 and Arena-Hard, show that our method consistently outperforms baseline methods by up to 3.8% and 4.4%, respectively. We will release the code and models at https://github.com/wzhouad/T-REG.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値の整合に不可欠である。
伝統的に、RLHFはクエリに対するレスポンスを生成し、報酬モデルを使用してレスポンス全体に報酬を割り当てる。
しかし、このアプローチは単一のスパース報酬に依存しているため、課題に直面しており、モデルのどの部分が最終報酬に最も大きく寄与しているかを特定することは困難である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
しかしながら、これらの手法は訓練された信用代入モデルかAIアノテータのいずれかに依存し、報酬の品質と信頼性に関する懸念を提起することが多い。
本稿では,トークンレベルの報酬を優先最適化するために,シーケンスレベルの報酬とトークンレベルの報酬の両方を活用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
LLMの自己補充能力に配慮し,トークンレベルの報酬を自己生成できるコントラストプロンプトを用いた。
これらの自己生成報酬は報酬の正規化として働き、トークン間でより効果的にシーケンスレベルの報酬を分配するようモデルに誘導する。
これによりトークンレベルのクレジット割り当てが向上し、アライメントパフォーマンスが向上する。
Alpaca Eval 2 や Arena-Hard などのベンチマークによる学習結果から,提案手法はベースライン手法を最大3.8%,Arena-Hard が4.4%向上することがわかった。
コードとモデルはhttps://github.com/wzhouad/T-REG.comで公開します。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - A Critical Look At Tokenwise Reward-Guided Text Generation [23.908449840589284]
フルシーケンスでトレーニングされた報酬モデルは、スコアリング部分シーケンスと互換性がないことを示す。
本稿では,部分列上でBradley-Terry報酬モデルを明示的にトレーニングし,復号時における暗黙的なポリシから自己回帰的にサンプルする手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T00:19:40Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Bayesian Reward Models for LLM Alignment [26.612181012468167]
我々は、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルを訓練する。
得られた不確実性推定は,BoNサンプリングにおける報酬過小評価を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T18:20:59Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。