論文の概要: Choice Between Partial Trajectories: Disentangling Goals from Beliefs
- arxiv url: http://arxiv.org/abs/2410.22690v3
- Date: Sat, 21 Dec 2024 13:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:11.895200
- Title: Choice Between Partial Trajectories: Disentangling Goals from Beliefs
- Title(参考訳): 部分軌道の選択:信念からゴールを遠ざける
- Authors: Henrik Marklund, Benjamin Van Roy,
- Abstract要約: AIエージェントは人間の選択データから好みを学ぶことが示唆されている。
このアプローチでは、エージェントがデータを解釈するために使用できる選択行動のモデルが必要です。
ブートストラップされたリターンに基づく代替モデルを考えると、部分的なリターンが将来のリターンの見積もりを追加する。
- 参考スコア(独自算出の注目度): 19.39067577784909
- License:
- Abstract: As AI agents generate increasingly sophisticated behaviors, manually encoding human preferences to guide these agents becomes more challenging. To address this, it has been suggested that agents instead learn preferences from human choice data. This approach requires a model of choice behavior that the agent can use to interpret the data. For choices between partial trajectories of states and actions, previous models assume choice probabilities are determined by the partial return or the cumulative advantage. We consider an alternative model based instead on the bootstrapped return, which adds to the partial return an estimate of the future return. Benefits of the bootstrapped return model stem from its treatment of human beliefs. Unlike partial return, choices based on bootstrapped return reflect human beliefs about the environment. Further, while recovering the reward function from choices based on cumulative advantage requires that those beliefs are correct, doing so from choices based on bootstrapped return does not. To motivate the bootstrapped return model, we formulate axioms and prove an Alignment Theorem. This result formalizes how, for a general class of preferences, such models are able to disentangle goals from beliefs. This ensures recovery of an aligned reward function when learning from choices based on bootstrapped return. The bootstrapped return model also affords greater robustness to choice behavior. Even when choices are based on partial return, learning via a bootstrapped return model recovers an aligned reward function. The same holds with choices based on the cumulative advantage if the human and the agent both adhere to correct and consistent beliefs about the environment. On the other hand, if choices are based on bootstrapped return, learning via partial return or cumulative advantage models does not generally produce an aligned reward function.
- Abstract(参考訳): AIエージェントがますます洗練された振る舞いを生成するにつれて、これらのエージェントをガイドするために人間の好みを手作業でコーディングすることはより困難になる。
これを解決するために、エージェントは人間の選択データから好みを学ぶことが提案されている。
このアプローチでは、エージェントがデータを解釈するために使用できる選択行動のモデルが必要です。
状態と行動の部分的軌跡の選択については、選択確率は部分的回帰または累積的優位によって決定されると仮定する。
我々は、ブートストラップされた戻り値に基づく代替モデルを検討し、将来の戻り値の推定を部分的な戻り値に追加する。
ブートストラップされたリターンモデルの利点は、人間の信念を治療することに由来する。
部分的なリターンとは異なり、ブートストラップされたリターンに基づく選択は環境に対する人間の信念を反映する。
さらに、累積的な優位性に基づく選択から報酬関数を復元する際、これらの信念は正しいことを要求するが、自己申告した返却に基づく選択からそうする必要はない。
ブートストラップされた回帰モデルを動機づけるために、公理を定式化し、アライメント定理を証明する。
この結果は、一般的な選好のクラスにおいて、そのようなモデルが信念から目標を遠ざけることを公式化する。
これにより、ブートストラップされたリターンに基づいて選択から学習する際、アライメントされたリターン関数のリカバリが保証される。
ブートストラップされたリターンモデルは、行動を選択するためのロバスト性も向上する。
選択が部分的なリターンに基づいている場合でも、ブートストラップされたリターンモデルによる学習は、アライメントされたリターン関数を回復する。
人間とエージェントが共に環境に関する正しい一貫した信念に固執するならば、累積的な優位性に基づいた選択が成り立つ。
一方、選択がブートストラップされたリターンに基づいている場合、部分的リターンや累積的アドバンテージモデルによる学習は、一般に一致した報酬関数を生成しない。
関連論文リスト
- Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Model Agnostic Explainable Selective Regression via Uncertainty
Estimation [15.331332191290727]
本稿では,モデルに依存しない非パラメトリック不確実性推定を用いた選択回帰手法を提案する。
提案フレームワークは,最先端の選択的回帰器と比較して優れた性能を示す。
オープンソースPythonパッケージに選択的回帰法を実装し、実験を再現するために使用するコードをリリースする。
論文 参考訳(メタデータ) (2023-11-15T17:40:48Z) - Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文 参考訳(メタデータ) (2023-10-03T21:58:24Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。