論文の概要: Learning Optimal Advantage from Preferences and Mistaking it for Reward
- arxiv url: http://arxiv.org/abs/2310.02456v1
- Date: Tue, 3 Oct 2023 21:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:23:01.658942
- Title: Learning Optimal Advantage from Preferences and Mistaking it for Reward
- Title(参考訳): 選好から最適なアドバンテージを学習し、それを逆戻りに間違える
- Authors: W. Bradley Knox, Stephane Hatgis-Kessell, Sigurdur Orn Adalgeirsson,
Serena Booth, Anca Dragan, Peter Stone, Scott Niekum
- Abstract要約: 最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
- 参考スコア(独自算出の注目度): 43.58066500250688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider algorithms for learning reward functions from human preferences
over pairs of trajectory segments, as used in reinforcement learning from human
feedback (RLHF). Most recent work assumes that human preferences are generated
based only upon the reward accrued within those segments, or their partial
return. Recent work casts doubt on the validity of this assumption, proposing
an alternative preference model based upon regret. We investigate the
consequences of assuming preferences are based upon partial return when they
actually arise from regret. We argue that the learned function is an
approximation of the optimal advantage function, $\hat{A^*_r}$, not a reward
function. We find that if a specific pitfall is addressed, this incorrect
assumption is not particularly harmful, resulting in a highly shaped reward
function. Nonetheless, this incorrect usage of $\hat{A^*_r}$ is less desirable
than the appropriate and simpler approach of greedy maximization of
$\hat{A^*_r}$. From the perspective of the regret preference model, we also
provide a clearer interpretation of fine tuning contemporary large language
models with RLHF. This paper overall provides insight regarding why learning
under the partial return preference model tends to work so well in practice,
despite it conforming poorly to how humans give preferences.
- Abstract(参考訳): 我々は,人間フィードバック(rlhf)からの強化学習において,軌道セグメントのペア上での人間の好みから報酬関数を学習するアルゴリズムを検討する。
最近の研究では、人間の好みは、それらのセグメント内の報酬またはそれらの部分的リターンのみに基づいて生成されると仮定している。
最近の研究は、この仮定の有効性に疑問を投げかけ、後悔に基づく代替の選好モデルを提案した。
本研究は,後悔から生じる部分的回帰に基づく選好の仮定結果について検討する。
学習関数は最適優位関数の近似であり、報酬関数ではなく、$\hat{A^*_r}$であると主張する。
特定の落とし穴に対処すると、この誤った仮定は特に有害ではなく、非常に形が整った報酬関数となる。
それでも、この$\hat{A^*_r}$の誤用は、$\hat{A^*_r}$のグリーディ最大化の適切かつ単純なアプローチよりも望ましい。
後悔の選好モデルの観点からは、RLHFを用いた現代大言語モデルの微調整のより明確な解釈も提供する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
関連論文リスト
- Choice between Partial Trajectories [19.39067577784909]
AIエージェントは人間の選択データから好みを学ぶことが示唆されている。
このアプローチでは、エージェントがデータを解釈するために使用できる選択行動のモデルが必要です。
ブートストラップされたリターンに基づく代替モデルを考えると、部分的なリターンが将来のリターンの見積もりを追加する。
論文 参考訳(メタデータ) (2024-10-30T04:52:22Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。