論文の概要: Learning Memory-Dependent Continuous Control from Demonstrations
- arxiv url: http://arxiv.org/abs/2102.09208v1
- Date: Thu, 18 Feb 2021 08:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-20 05:13:22.613400
- Title: Learning Memory-Dependent Continuous Control from Demonstrations
- Title(参考訳): メモリ依存型連続制御のデモから学ぶ
- Authors: Siqing Hou, Dongqi Han, Jun Tani
- Abstract要約: 本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。
いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
- 参考スコア(独自算出の注目度): 13.063093054280948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration has presented a long-standing challenge in
reinforcement learning, especially when rewards are sparse. A developmental
system can overcome this difficulty by learning from both demonstrations and
self-exploration. However, existing methods are not applicable to most
real-world robotic controlling problems because they assume that environments
follow Markov decision processes (MDP); thus, they do not extend to partially
observable environments where historical observations are necessary for
decision making. This paper builds on the idea of replaying demonstrations for
memory-dependent continuous control, by proposing a novel algorithm, Recurrent
Actor-Critic with Demonstration and Experience Replay (READER). Experiments
involving several memory-crucial continuous control tasks reveal significantly
reduce interactions with the environment using our method with a reasonably
small number of demonstration samples. The algorithm also shows better sample
efficiency and learning capabilities than a baseline reinforcement learning
algorithm for memory-based control from demonstrations.
- Abstract(参考訳): 効率的な探索は、特に報酬が不足している場合、強化学習において長年の課題を提示してきた。
開発システムは、デモンストレーションと自己探索の両方から学ぶことで、この困難を克服することができます。
しかし、既存の手法は、環境がマルコフ決定プロセス(MDP)に従うと仮定するため、ほとんどの実世界のロボット制御問題には適用できないため、歴史的観察が決定に必要となる部分観察可能な環境にまで拡張されない。
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアを,新しいアルゴリズムであるRecurrent Actor-Critic with Demonstration and Experience Replay (READER) を提案する。
複数のメモリ精査連続制御タスクを含む実験により,本手法による環境とのインタラクションを比較的少ないサンプル数で大幅に低減できることが判明した。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Continuous Episodic Control [7.021281655855703]
本稿では,連続行動空間の問題における逐次決定のための新しい非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を紹介する。
いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好に維持できることを示した。
論文 参考訳(メタデータ) (2022-11-28T09:48:42Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。
本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T11:00:24Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。