Fugu-MT 論文翻訳(概要): Generalized Hindsight for Reinforcement Learning

論文の概要: Generalized Hindsight for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2002.11708v1
Date: Wed, 26 Feb 2020 18:57:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 13:50:25.179846
Title: Generalized Hindsight for Reinforcement Learning
Title（参考訳）: 強化学習のための一般化後遺症
Authors: Alexander C. Li, Lerrel Pinto, Pieter Abbeel
Abstract要約: 1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
参考スコア（独自算出の注目度）: 154.0545226284078
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the key reasons for the high sample complexity in reinforcement learning (RL) is the inability to transfer knowledge from one task to another. In standard multi-task RL settings, low-reward data collected while trying to solve one task provides little to no signal for solving that particular task and is hence effectively wasted. However, we argue that this data, which is uninformative for one task, is likely a rich source of information for other tasks. To leverage this insight and efficiently reuse data, we present Generalized Hindsight: an approximate inverse reinforcement learning technique for relabeling behaviors with the right tasks. Intuitively, given a behavior generated under one task, Generalized Hindsight returns a different task that the behavior is better suited for. Then, the behavior is relabeled with this new task before being used by an off-policy RL optimizer. Compared to standard relabeling techniques, Generalized Hindsight provides a substantially more efficient reuse of samples, which we empirically demonstrate on a suite of multi-task navigation and manipulation tasks. Videos and code can be accessed here: https://sites.google.com/view/generalized-hindsight.
Abstract（参考訳）: 強化学習(RL)における高いサンプル複雑さの要因の1つは、あるタスクから別のタスクに知識を伝達できないことである。標準的なマルチタスクRL設定では、1つのタスクを解決しようとするときに収集される低遅延データは、そのタスクを解くための信号はほとんど、あるいは全く提供しないため、効果的に無駄になる。しかし、このデータは1つのタスクでは非形式的であり、おそらく他のタスクでは豊富な情報源である。この知見を有効活用し、データを効率的に再利用するために、適切なタスクで振る舞いを再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。直感的には、あるタスクの下で生成された振舞いに対して、Generalized Hindsightは振舞いがより適している別のタスクを返す。その後、振る舞いはオフポリシーrlオプティマイザで使われる前に、この新しいタスクとリラベルされる。 Generalized Hindsightは、標準のラベリング技術と比較して、より効率的なサンプルの再利用を提供し、マルチタスクナビゲーションと操作タスクのスイートで実証的に実証する。 https://sites.google.com/view/generalized-hindsight.com ビデオとコードをここでアクセスできる。

関連論文リスト

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文参考訳（メタデータ） (2023-10-03T06:49:57Z)
Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文参考訳（メタデータ） (2023-07-13T16:39:08Z)
CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文参考訳（メタデータ） (2023-02-08T13:04:52Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文参考訳（メタデータ） (2020-10-27T17:57:29Z)
Generative Feature Replay with Orthogonal Weight Modification for Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文参考訳（メタデータ） (2020-05-07T13:56:22Z)
Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文参考訳（メタデータ） (2020-02-25T18:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。