論文の概要: Sample-Efficient Preference-based Reinforcement Learning with Dynamics
Aware Rewards
- arxiv url: http://arxiv.org/abs/2402.17975v1
- Date: Wed, 28 Feb 2024 01:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:45:23.708901
- Title: Sample-Efficient Preference-based Reinforcement Learning with Dynamics
Aware Rewards
- Title(参考訳): dynamics aware rewardsを用いたサンプル効率の高い選好型強化学習
- Authors: Katherine Metcalf, Miguel Sarabia, Natalie Mackraz, Barry-John
Theobald
- Abstract要約: 優先度に基づく強化学習(PbRL)は、エージェントの行動に対する二項フィードバックから学習した報酬関数を介して、ロボットの行動と人間の嗜好を一致させる。
本研究では,PbRLの試料効率を桁違いに向上することを示す。
- 参考スコア(独自算出の注目度): 2.5101508961934837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) aligns a robot behavior with
human preferences via a reward function learned from binary feedback over agent
behaviors. We show that dynamics-aware reward functions improve the sample
efficiency of PbRL by an order of magnitude. In our experiments we iterate
between: (1) learning a dynamics-aware state-action representation (z^{sa}) via
a self-supervised temporal consistency task, and (2) bootstrapping the
preference-based reward function from (z^{sa}), which results in faster policy
learning and better final policy performance. For example, on quadruped-walk,
walker-walk, and cheetah-run, with 50 preference labels we achieve the same
performance as existing approaches with 500 preference labels, and we recover
83\% and 66\% of ground truth reward policy performance versus only 38\% and
21\%. The performance gains demonstrate the benefits of explicitly learning a
dynamics-aware reward model. Repo: \texttt{https://github.com/apple/ml-reed}.
- Abstract(参考訳): 選好に基づく強化学習(pbrl)は,エージェント行動よりもバイナリフィードバックから学習した報奨関数を通じて,ロボットの行動と人間の選好を整合させる。
また, ダイナミックスアウェア報酬関数はpbrlのサンプル効率を桁違いに向上させることを示した。
本実験では,(1)自己監督型時間的整合性タスクを通じて動的に認識された状態行動表現(z^{sa})を学習し,(2)優先型報酬関数(z^{sa})をブートストラップすることで,より高速な政策学習と最終政策性能を実現する。
例えば、四足歩行、ウォーカーウォーク、チーターランでは、50の選好ラベルで、500の選好ラベルを持つ既存のアプローチと同じ性能を達成し、83\%と66\%の真理報酬政策性能を38\%と21\%で回復する。
パフォーマンス向上は、動的認識報酬モデルを明確に学習するメリットを示している。
Repo: \texttt{https://github.com/apple/ml-reed}
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning [4.969254618158096]
本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
論文 参考訳(メタデータ) (2022-11-12T00:34:41Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。