論文の概要: Collect & Infer -- a fresh look at data-efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.10273v1
- Date: Mon, 23 Aug 2021 16:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:35:41.091397
- Title: Collect & Infer -- a fresh look at data-efficient Reinforcement Learning
- Title(参考訳): Collect & Infer -- データ効率のよい強化学習を新たに検討
- Authors: Martin Riedmiller, Jost Tobias Springenberg, Roland Hafner, Nicolas
Heess
- Abstract要約: 本稿では,データ効率の観点から,強化学習(Reinforcement Learning, RL)の新たな展望を提案する。
データ効率のよいRLは3つの主要な段階を経てきた: 純粋なオンラインRL: すべてのデータポイントが一度だけ考慮される。
- 参考スコア(独自算出の注目度): 25.435463964357318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This position paper proposes a fresh look at Reinforcement Learning (RL) from
the perspective of data-efficiency. Data-efficient RL has gone through three
major stages: pure on-line RL where every data-point is considered only once,
RL with a replay buffer where additional learning is done on a portion of the
experience, and finally transition memory based RL, where, conceptually, all
transitions are stored and re-used in every update step. While inferring
knowledge from all explicitly stored experience has lead to a tremendous gain
in data-efficiency, the question of how this data is collected has been vastly
understudied. We argue that data-efficiency can only be achieved through
careful consideration of both aspects. We propose to make this insight explicit
via a paradigm that we call 'Collect and Infer', which explicitly models RL as
two separate but interconnected processes, concerned with data collection and
knowledge inference respectively. We discuss implications of the paradigm, how
its ideas are reflected in the literature, and how it can guide future research
into data efficient RL.
- Abstract(参考訳): 本稿では,データ効率の観点から強化学習(rl)を新たに見ることを提案する。
データ効率のよいRLは3つの主要な段階を経てきた: 純粋なオンラインRL: すべてのデータポイントが1回だけ考慮される、RL: 経験の一部で追加の学習を行うリプレイバッファ、最後にトランジションメモリベースのRL: 概念的には、すべてのトランジションがすべての更新ステップに格納され、再使用される。
明示的に記憶されたすべての経験から知識を推測することは、データ効率の大幅な向上につながるが、このデータがどのように収集されるかという問題は、非常に未検討である。
データ効率は両面を慎重に検討することでのみ達成できると我々は主張する。
我々は,この知見を,データ収集と知識推論の2つのプロセスとしてRLを明示的にモデル化する,「収集と推論」と呼ばれるパラダイムを通じて明確にすることを提案する。
本稿では、このパラダイムの意義、その考え方が文献にどのように反映されているか、そしてデータ効率のよいRLに関する今後の研究を導く方法について論じる。
関連論文リスト
- Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory [7.771348413934219]
連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。
本稿では,連続RLにおけるデータ拡張の有効性について検討する。
本稿では,乱数振幅スケーリング,ステートスウィッチ,ミックスアップ,逆数拡張,Adv-GEMなどのデータ拡張が,既存の連続RLアルゴリズムを改善することを示す。
論文 参考訳(メタデータ) (2024-08-24T03:43:35Z) - Closing the Gap between TD Learning and Supervised Learning -- A
Generalisation Point of View [51.30152184507165]
いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために、経験の断片を縫い合わせることができる。
このoft-sought特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
これらの方法がこの重要な縫合特性を許すかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-20T14:23:25Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。