論文の概要: RoMo-HER: Robust Model-based Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2306.16061v1
- Date: Wed, 28 Jun 2023 09:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:45:05.549342
- Title: RoMo-HER: Robust Model-based Hindsight Experience Replay
- Title(参考訳): RoMo-HER:ロバストなモデルベースの隠れ体験リプレイ
- Authors: Yuming Huang and Bin Ren
- Abstract要約: 本稿では,ロボット操作環境におけるサンプル効率を高めるために,ロバストモデルに基づくHyndsight Experience Replay (RoMo-HER)を提案する。
RoMo-HERは、ダイナミックスモデルと、Foresight relabeling (FR)と呼ばれる、特定の戦略で予測開始状態を選択し、開始状態の将来の軌跡を予測し、ゴールをリラベルする新しいゴールレバーリング技術に基づいて構築されている。
実験の結果,複数のロボット操作環境において,RoMo-HERはHERやモデルベースHMMよりも高効率であることがわかった。
- 参考スコア(独自算出の注目度): 13.889082559371401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse rewards are one of the factors leading to low sample efficiency in
multi-goal reinforcement learning (RL). Based on Hindsight Experience Replay
(HER), model-based relabeling methods have been proposed to relabel goals using
virtual trajectories obtained by interacting with the trained model, which can
effectively enhance the sample efficiency in accurately modelable sparse-reward
environments. However, they are ineffective in robot manipulation environment.
In our paper, we design a robust framework called Robust Model-based Hindsight
Experience Replay (RoMo-HER) which can effectively utilize the dynamical model
in robot manipulation environments to enhance the sample efficiency. RoMo-HER
is built upon a dynamics model and a novel goal relabeling technique called
Foresight relabeling (FR), which selects the prediction starting state with a
specific strategy, predicts the future trajectory of the starting state, and
then relabels the goal using the dynamics model and the latest policy to train
the agent. Experimental results show that RoMo-HER has higher sample efficiency
than HER and Model-based Hindsight Experience Replay in several simulated robot
manipulation environments. Furthermore, we integrate RoMo-HER and Relay
Hindsight Experience Replay (RHER), which currently exhibits the highest
sampling efficiency in most benchmark environments, resulting in a novel
approach called Robust Model-based Relay Hindsight Experience Replay
(RoMo-RHER). Our experimental results demonstrate that RoMo-RHER achieves
higher sample efficiency over RHER, outperforming RHER by 25% and 26% in
FetchPush-v1 and FetchPickandPlace-v1, respectively.
- Abstract(参考訳): スパース報酬はマルチゴール強化学習(RL)におけるサンプル効率の低下につながる要因の1つである。
Hindsight Experience Replay (HER)に基づいて、トレーニングされたモデルと相互作用して得られた仮想軌跡を用いて、モデルに基づくラベリング手法が目標を緩和する手法が提案されている。
しかし、ロボット操作環境では効果がない。
本稿では,ロボット操作環境における動的モデルを効果的に活用し,サンプル効率を向上させるロバストモデルに基づくHendsight Experience Replay (RoMo-HER) と呼ばれる頑健なフレームワークを設計する。
RoMo-HERは、ダイナミックスモデルと、Foresight relabeling(FR)と呼ばれる、特定の戦略で予測開始状態を選択し、スタート状態の将来の軌跡を予測し、ダイナミックスモデルとエージェントをトレーニングするための最新のポリシーを使用してゴールを再ラベルする新しいゴールレバーリング技術に基づいて構築されている。
実験の結果,複数のロボット操作環境において,RoMo-HERはHERやモデルベースHMMよりも高効率であることがわかった。
さらに,RoMo-HER と Relay Hindsight Experience Replay (RHER) を統合することで,ロバストモデルに基づく Relay Hindsight Experience Replay (RoMo-RHER) と呼ばれる新しい手法が提案される。
RHERはFetchPush-v1とFetchPickandPlace-v1で25%, 26%, RHERでは25%, RHERでは26%, RHERよりも高い試料効率が得られた。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Residual Model Learning for Microrobot Control [17.22836165560292]
本稿では,ロボットモデル学習に伴うサンプルの複雑さを軽減するために,近似モデルを利用した新しいフレームワーク残差モデル学習(RML)を提案する。
RMLを用いて、受動的に収集された12秒間の相互作用データを用いて、Harvard Ambulatory MicroRobot(HAMR)のモデルを学ぶことができることを示す。
学習モデルは、モデルレス強化学習アルゴリズムを用いて歩行と回転の学習に「プロキシ・シミュレータ」として活用できるほど正確である。
論文 参考訳(メタデータ) (2021-04-01T17:22:50Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。