論文の概要: Delayed Reinforcement Learning by Imitation
- arxiv url: http://arxiv.org/abs/2205.05569v1
- Date: Wed, 11 May 2022 15:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 20:04:58.169638
- Title: Delayed Reinforcement Learning by Imitation
- Title(参考訳): 模倣による遅延強化学習
- Authors: Pierre Liotet, Davide Maran, Lorenzo Bisi, Marcello Restelli
- Abstract要約: 遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 31.932677462399468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the agent's observations or interactions are delayed, classic
reinforcement learning tools usually fail. In this paper, we propose a simple
yet new and efficient solution to this problem. We assume that, in the
undelayed environment, an efficient policy is known or can be easily learned,
but the task may suffer from delays in practice and we thus want to take them
into account. We present a novel algorithm, Delayed Imitation with Dataset
Aggregation (DIDA), which builds upon imitation learning methods to learn how
to act in a delayed environment from undelayed demonstrations. We provide a
theoretical analysis of the approach that will guide the practical design of
DIDA. These results are also of general interest in the delayed reinforcement
learning literature by providing bounds on the performance between delayed and
undelayed tasks, under smoothness conditions. We show empirically that DIDA
obtains high performances with a remarkable sample efficiency on a variety of
tasks, including robotic locomotion, classic control, and trading.
- Abstract(参考訳): エージェントの観察や相互作用が遅れると、古典的な強化学習ツールは通常失敗する。
本稿では,この問題に対する単純かつ新しい効率的な解法を提案する。
遅延のない環境では、効率的なポリシーが知られ、容易に学習できると仮定するが、そのタスクは実践上の遅延に悩まされ、それらを考慮に入れたいと考える。
本稿では、遅延しないデモから遅延環境での動作方法を学ぶための模倣学習法に基づく新しいアルゴリズム、Delayed Imitation with Dataset Aggregation (DIDA)を提案する。
本稿では,DIDAの実践設計の指針となるアプローチに関する理論的分析を行う。
これらの結果は,遅延タスクと非遅延タスク間の性能を平滑性条件下で制限することにより,遅延強化学習文献にも一般的に興味を寄せている。
ロボットの移動,古典的制御,取引など,様々なタスクにおいて,DIDAが顕著なサンプル効率で高い性能が得られることを示す。
関連論文リスト
- Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrize d Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - Learning from Demonstrations using Signal Temporal Logic [1.2182193687133713]
効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T18:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。