論文の概要: Generalized Hindsight for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.11708v1
- Date: Wed, 26 Feb 2020 18:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 13:50:25.179846
- Title: Generalized Hindsight for Reinforcement Learning
- Title(参考訳): 強化学習のための一般化後遺症
- Authors: Alexander C. Li, Lerrel Pinto, Pieter Abbeel
- Abstract要約: 1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
- 参考スコア(独自算出の注目度): 154.0545226284078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key reasons for the high sample complexity in reinforcement
learning (RL) is the inability to transfer knowledge from one task to another.
In standard multi-task RL settings, low-reward data collected while trying to
solve one task provides little to no signal for solving that particular task
and is hence effectively wasted. However, we argue that this data, which is
uninformative for one task, is likely a rich source of information for other
tasks. To leverage this insight and efficiently reuse data, we present
Generalized Hindsight: an approximate inverse reinforcement learning technique
for relabeling behaviors with the right tasks. Intuitively, given a behavior
generated under one task, Generalized Hindsight returns a different task that
the behavior is better suited for. Then, the behavior is relabeled with this
new task before being used by an off-policy RL optimizer. Compared to standard
relabeling techniques, Generalized Hindsight provides a substantially more
efficient reuse of samples, which we empirically demonstrate on a suite of
multi-task navigation and manipulation tasks. Videos and code can be accessed
here: https://sites.google.com/view/generalized-hindsight.
- Abstract(参考訳): 強化学習(RL)における高いサンプル複雑さの要因の1つは、あるタスクから別のタスクに知識を伝達できないことである。
標準的なマルチタスクRL設定では、1つのタスクを解決しようとするときに収集される低遅延データは、そのタスクを解くための信号はほとんど、あるいは全く提供しないため、効果的に無駄になる。
しかし、このデータは1つのタスクでは非形式的であり、おそらく他のタスクでは豊富な情報源である。
この知見を有効活用し、データを効率的に再利用するために、適切なタスクで振る舞いを再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
直感的には、あるタスクの下で生成された振舞いに対して、Generalized Hindsightは振舞いがより適している別のタスクを返す。
その後、振る舞いはオフポリシーrlオプティマイザで使われる前に、この新しいタスクとリラベルされる。
Generalized Hindsightは、標準のラベリング技術と比較して、より効率的なサンプルの再利用を提供し、マルチタスクナビゲーションと操作タスクのスイートで実証的に実証する。
https://sites.google.com/view/generalized-hindsight.com ビデオとコードをここでアクセスできる。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。