論文の概要: SCAR: Shapley Credit Assignment for More Efficient RLHF
- arxiv url: http://arxiv.org/abs/2505.20417v1
- Date: Mon, 26 May 2025 18:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.233622
- Title: SCAR: Shapley Credit Assignment for More Efficient RLHF
- Title(参考訳): SCAR:より効率的なRLHFのためのシェープクレジット割り当て
- Authors: Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup,
- Abstract要約: ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデルと人間の嗜好を整合させる手法として広く用いられている。
報酬の少ない信号に悩まされることが多く、効果的なクレジットの割り当てに挑戦する。
協調ゲーム理論におけるシェープリー値を利用する新しい手法であるシェープリークレジット割当てリワード(SCAR)を提案する。
- 参考スコア(独自算出の注目度): 57.09358918390916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a widely used technique for aligning Large Language Models (LLMs) with human preferences, yet it often suffers from sparse reward signals, making effective credit assignment challenging. In typical setups, the reward model provides a single scalar score for an entire generated sequence, offering little insight into which token or span-level decisions were responsible for the outcome. To address this, we propose Shapley Credit Assignment Rewards (SCAR), a novel method that leverages Shapley values in cooperative game theory. SCAR distributes the total sequence-level reward among constituent tokens or text spans based on their principled marginal contributions. This creates dense reward signals, crucially, without necessitating the training of auxiliary critique models or recourse to fine-grained human annotations at intermediate generation stages. Unlike prior dense reward methods, SCAR offers a game-theoretic foundation for fair credit attribution. Theoretically, we demonstrate that SCAR preserves the original optimal policy, and empirically, across diverse tasks including sentiment control, text summarization, and instruction tuning, we show that SCAR converges significantly faster and achieves higher final reward scores compared to standard RLHF and attention-based dense reward baselines. Our findings suggest that SCAR provides a more effective and theoretically sound method for credit assignment in RLHF, leading to more efficient alignment of LLMs.
- Abstract(参考訳): 強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる手法として広く用いられているが、しばしば報酬信号の不足に悩まされ、効果的なクレジット割り当てが困難になる。
典型的なセットアップでは、報酬モデルは生成されたシーケンス全体に対して単一のスカラースコアを提供する。
そこで本研究では,協調ゲーム理論におけるShapley値を活用する新しい手法であるShapley Credit Assignment Rewards (SCAR)を提案する。
SCARは、その原則化された限界貢献に基づいて、構成トークンまたはテキストスパンに全シーケンスレベルの報酬を分配する。
これは、重要なことに、中間世代における微粒な人間のアノテーションに対する補助的批評モデルやレコースの訓練を必要とせずに、高密度の報酬信号を生成する。
従来の密集した報酬法とは異なり、SCARは公正な信用帰属のためのゲーム理論の基礎を提供する。
理論的には、SCARはオリジナルの最適ポリシーを保ち、経験的に感情制御、テキスト要約、命令チューニングを含む様々なタスクにまたがって、SCARは、標準のRLHFや注目に基づく高次報酬ベースラインと比較して、はるかに早く収束し、より高い最終的な報酬スコアを得ることを示す。
以上の結果から,SCAR は RLHF のクレジット割当において,より効果的で理論的に健全な手法を提供し,LLM のより効率的なアライメントを実現することが示唆された。
関連論文リスト
- Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - T-REG: Preference Optimization with Token-Level Reward Regularization [35.07328450591201]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:07Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback [5.3113139864044046]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RLAIFは、既製のLLMが生成した好みに基づいて報酬モデル(RM)を訓練する有望な代替手段を提供する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。