論文の概要: Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement
- arxiv url: http://arxiv.org/abs/2002.11089v1
- Date: Tue, 25 Feb 2020 18:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:15:33.519701
- Title: Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement
- Title(参考訳): 逆rlによる履歴書き換え:政策改善のための後見推論
- Authors: Benjamin Eysenbach, Xinyang Geng, Sergey Levine, and Ruslan
Salakhutdinov
- Abstract要約: この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
- 参考スコア(独自算出の注目度): 137.29281352505245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning (RL) aims to simultaneously learn policies
for solving many tasks. Several prior works have found that relabeling past
experience with different reward functions can improve sample efficiency.
Relabeling methods typically ask: if, in hindsight, we assume that our
experience was optimal for some task, for what task was it optimal? In this
paper, we show that hindsight relabeling is inverse RL, an observation that
suggests that we can use inverse RL in tandem for RL algorithms to efficiently
solve many tasks. We use this idea to generalize goal-relabeling techniques
from prior work to arbitrary classes of tasks. Our experiments confirm that
relabeling data using inverse RL accelerates learning in general multi-task
settings, including goal-reaching, domains with discrete sets of rewards, and
those with linear reward functions.
- Abstract(参考訳): マルチタスク強化学習(RL)は、多くのタスクを解決するためのポリシーを同時に学習することを目的としている。
いくつかの先行研究は、過去の経験を異なる報酬関数で再現することで、サンプル効率が向上することを発見した。
後から見ると、どのようなタスクに対して、どのようなタスクに対して、私たちの経験が最適だと仮定しますか?
本稿では,RLアルゴリズムのタンデムに逆RLを使用すれば,多くのタスクを効率的に解くことができることを示す。
我々は、このアイデアを用いて、先行作業から任意のタスククラスへのゴール許容テクニックを一般化する。
実験により,逆RLを用いた学習は,目標獲得,個別の報酬セットを持つ領域,線形報酬関数を持つ領域など,一般的なマルチタスク設定での学習を加速することを確認した。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Hindsight Foresight Relabeling for Meta-Reinforcement Learning [20.755104281986757]
メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは少数の経験から新しい行動を学ぶことができる。
メタRLエージェントは、ほんのわずかな軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。
我々はHFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案した。
HFRは、様々なメタRLタスクにおける他のレバーベリングメソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-18T23:49:14Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。