論文の概要: Delayed Reinforcement Learning by Imitation
- arxiv url: http://arxiv.org/abs/2205.05569v1
- Date: Wed, 11 May 2022 15:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 20:04:58.169638
- Title: Delayed Reinforcement Learning by Imitation
- Title(参考訳): 模倣による遅延強化学習
- Authors: Pierre Liotet, Davide Maran, Lorenzo Bisi, Marcello Restelli
- Abstract要約: 遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 31.932677462399468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the agent's observations or interactions are delayed, classic
reinforcement learning tools usually fail. In this paper, we propose a simple
yet new and efficient solution to this problem. We assume that, in the
undelayed environment, an efficient policy is known or can be easily learned,
but the task may suffer from delays in practice and we thus want to take them
into account. We present a novel algorithm, Delayed Imitation with Dataset
Aggregation (DIDA), which builds upon imitation learning methods to learn how
to act in a delayed environment from undelayed demonstrations. We provide a
theoretical analysis of the approach that will guide the practical design of
DIDA. These results are also of general interest in the delayed reinforcement
learning literature by providing bounds on the performance between delayed and
undelayed tasks, under smoothness conditions. We show empirically that DIDA
obtains high performances with a remarkable sample efficiency on a variety of
tasks, including robotic locomotion, classic control, and trading.
- Abstract(参考訳): エージェントの観察や相互作用が遅れると、古典的な強化学習ツールは通常失敗する。
本稿では,この問題に対する単純かつ新しい効率的な解法を提案する。
遅延のない環境では、効率的なポリシーが知られ、容易に学習できると仮定するが、そのタスクは実践上の遅延に悩まされ、それらを考慮に入れたいと考える。
本稿では、遅延しないデモから遅延環境での動作方法を学ぶための模倣学習法に基づく新しいアルゴリズム、Delayed Imitation with Dataset Aggregation (DIDA)を提案する。
本稿では,DIDAの実践設計の指針となるアプローチに関する理論的分析を行う。
これらの結果は,遅延タスクと非遅延タスク間の性能を平滑性条件下で制限することにより,遅延強化学習文献にも一般的に興味を寄せている。
ロボットの移動,古典的制御,取引など,様々なタスクにおいて,DIDAが顕著なサンプル効率で高い性能が得られることを示す。
関連論文リスト
- Interpretable Generative Adversarial Imitation Learning [9.20323061622786]
本稿では,信号時間論理(STL)推論と制御合成を組み合わせた新しい模倣学習手法を提案する。
このアプローチは、タスクを明確に理解するだけでなく、人間の知識の取り込みや新しいシナリオへの適応を可能にします。
論文 参考訳(メタデータ) (2024-02-15T20:21:40Z) - Boosting Long-Delayed Reinforcement Learning with Auxiliary
Short-Delayed Task [23.934684259593823]
本稿では,長時間のタスクにおける学習を高速化する新しい補助遅延強化学習(AD-RL)を提案する。
具体的には、AD-RLは、短遅延タスクにおける値関数を学習し、長遅延タスクにおけるブートストラップとポリシー改善技術でそれを利用する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Federated Learning Approach to Anomaly Detection in Smart Buildings [5.177947445379688]
マルチタスク学習パラダイムを活用することにより,連合学習環境における異常検出問題を定式化する。
本稿では,LSTMモデルを用いた新しいプライバシ・バイ・デザイン・フェデレーション学習モデルを提案する。
集中型LSTMに比べてトレーニング収束時の2倍以上の速さであることが実証された。
論文 参考訳(メタデータ) (2020-10-20T14:06:00Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。