論文の概要: Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration
- arxiv url: http://arxiv.org/abs/2109.13005v1
- Date: Mon, 27 Sep 2021 12:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:03:31.363889
- Title: Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration
- Title(参考訳): Demonstration-like Smpled Exploration を用いたロボット深部強化学習におけるオンラインアクター・クリティカルネットワークの効果的学習
- Authors: Zhaorun Chen, Binhao Chen, Shenghan Xie, Liang Gong, Chengliang Liu,
Zhengfeng Zhang and Junping Zhang
- Abstract要約: 本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
- 参考スコア(独自算出の注目度): 7.930709072852582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In complex environments with high dimension, training a reinforcement
learning (RL) model from scratch often suffers from lengthy and tedious
collection of agent-environment interactions. Instead, leveraging expert
demonstration to guide RL agent can boost sample efficiency and improve final
convergence. In order to better integrate expert prior with on-policy RL
models, we propose a generic framework for Learning from Demonstration (LfD)
based on actor-critic algorithms. Technically, we first employ K-Means
clustering to evaluate the similarity of sampled exploration with demonstration
data. Then we increase the likelihood of actions in similar frames by modifying
the gradient update strategy to leverage demonstration. We conduct experiments
on 4 standard benchmark environments in Mujoco and 2 self-designed robotic
environments. Results show that, under certain condition, our algorithm can
improve sample efficiency by 20% ~ 40%. By combining our framework with
on-policy algorithms, RL models can accelerate convergence and obtain better
final mean episode rewards especially in complex robotic context where
interactions are expensive.
- Abstract(参考訳): 高次元の複雑な環境では、強化学習(RL)モデルをスクラッチから訓練することは、エージェントと環境の相互作用の長く退屈な収集に悩まされることが多い。
代わりに、rlエージェントをガイドするエキスパートデモンストレーションを利用することで、サンプル効率を高め、最終的な収束を改善することができる。
オンラインRLモデルに先立って専門家をもっとうまく統合するために,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
技術的には、まずK-Meansクラスタリングを用いて、サンプル探索と実証データとの類似性を評価する。
次に、グラデーション更新戦略を変更してデモを活用することで、類似のフレームにおけるアクションの可能性を高める。
ムジョコの4つの標準ベンチマーク環境と2つの自設計ロボット環境の実験を行った。
その結果, ある条件下では, サンプル効率を20%~40%向上させることができた。
我々のフレームワークとオンラインのアルゴリズムを組み合わせることで、RLモデルは収束を加速し、特に対話が高価である複雑なロボット環境での最終的な平均エピソード報酬を得ることができる。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。