Fugu-MT 論文翻訳(概要): Dense Reward for Free in Reinforcement Learning from Human Feedback

論文の概要: Dense Reward for Free in Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2402.00782v1
Date: Thu, 1 Feb 2024 17:10:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 14:27:13.418018
Title: Dense Reward for Free in Reinforcement Learning from Human Feedback
Title（参考訳）: 人からのフィードバックから自由強化学習のための高密度報酬
Authors: Alex J. Chan, Hao Sun, Samuel Holt, Mihaela van der Schaar
Abstract要約: 我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
参考スコア（独自算出の注目度）: 64.92448888346125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has been credited as the key advance that has allowed Large Language Models (LLMs) to effectively follow instructions and produce useful assistance. Classically, this involves generating completions from the LLM in response to a query before using a separate reward model to assign a score to the full completion. As an auto-regressive process, the LLM has to take many "actions" (selecting individual tokens) and only receives a single, sparse reward at the end of an episode, a setup that is known to be difficult to optimise in traditional reinforcement learning. In this work we leverage the fact that the reward model contains more information than just its scalar output, in particular, it calculates an attention map over tokens as part of the transformer architecture. We use these attention weights to redistribute the reward along the whole completion, effectively densifying the signal and highlighting the most important tokens, all without incurring extra computational cost or requiring any additional modelling. We demonstrate that, theoretically, this approach is equivalent to potential-based reward shaping, ensuring that the optimal policy remains unchanged. Empirically, we show that it stabilises training, accelerates the rate of learning, and, in practical cases, may lead to better local optima.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が効果的に指示に従うことを許し、有用な補助を提供するための重要な進歩として評価されている。古典的には、これはクエリに応答してLLMから完了を生成し、別の報酬モデルを使用して完全な完了にスコアを割り当てる。自己回帰のプロセスとして、LSMは多くの「アクション」(個々のトークンを選択する)を取らなければならず、エピソードの最後には1つのまばらな報酬しか受け取らない。本研究では,報酬モデルが単にスカラー出力よりも多くの情報を含むという事実を活用し,特にトランスフォーマーアーキテクチャの一部としてトークン上の注意マップを算出する。我々は、これらの注意重みを使って、完了全体に沿って報酬を再分配し、シグナルを効果的に密度化し、最も重要なトークンを強調します。理論的には、このアプローチはポテンシャルに基づく報酬形成と等価であり、最適なポリシーが不変であることを保証する。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。

関連論文リスト

Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文参考訳（メタデータ） (2025-06-29T13:45:54Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:31Z)
SCAR: Shapley Credit Assignment for More Efficient RLHF [57.09358918390916]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデルと人間の嗜好を整合させる手法として広く用いられている。報酬の少ない信号に悩まされることが多く、効果的なクレジットの割り当てに挑戦する。協調ゲーム理論におけるシェープリー値を利用する新しい手法であるシェープリークレジット割当てリワード(SCAR)を提案する。
論文参考訳（メタデータ） (2025-05-26T18:06:52Z)
Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文参考訳（メタデータ） (2025-03-01T14:11:04Z)
T-REG: Preference Optimization with Token-Level Reward Regularization [35.07328450591201]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
論文参考訳（メタデータ） (2024-12-03T18:56:07Z)
Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment [0.618727087412292]
大規模言語モデル(LLM)のアライメントは、有用で無害なコンテンツを生成するために不可欠である。既存のアプローチでは、好みに基づく人間のフィードバックデータを利用して報酬関数を学習する。近似変分アライメント学習(AVRIL)によるLLMアライメントを実現するための新しいトレーニング目標である近似変分アライメント(AVA)を提案する。
論文参考訳（メタデータ） (2024-11-14T10:37:34Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL [14.091146805312636]
信用割当問題は強化学習(RL)における中心的な課題であるクレジット・アサインメント・ウィズ・ランゲージ・モデル(CALM)は、報酬形成とオプション発見を通じてクレジット・アサインメントを自動化する新しいアプローチである。予備的な結果は、大規模言語モデルの知識が、RLにおける信用代入の有望な先行であることを示している。
論文参考訳（メタデータ） (2024-09-19T14:08:09Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。 RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-30T09:57:21Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文参考訳（メタデータ） (2021-05-29T19:48:51Z)
Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文参考訳（メタデータ） (2021-05-07T11:29:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。