論文の概要: MP3: Movement Primitive-Based (Re-)Planning Policy
- arxiv url: http://arxiv.org/abs/2306.12729v1
- Date: Thu, 22 Jun 2023 08:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:05:59.715529
- Title: MP3: Movement Primitive-Based (Re-)Planning Policy
- Title(参考訳): mp3:運動原始型(再計画)政策
- Authors: Fabian Otto, Hongyi Zhou, Onur Celik, Ge Li, Rudolf Lioutikov, Gerhard
Neumann
- Abstract要約: 我々は、移動計画政策(MP3)と呼ばれる新しい深層強化学習(RL)アプローチを導入する。
MP3は学習プロセス全体を通してスムーズな軌道の生成を可能にし、スパースや非マルコフの報酬から効果的に学習する。
- 参考スコア(独自算出の注目度): 22.732255155522928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a novel deep reinforcement learning (RL) approach called
Movement Prmitive-based Planning Policy (MP3). By integrating movement
primitives (MPs) into the deep RL framework, MP3 enables the generation of
smooth trajectories throughout the whole learning process while effectively
learning from sparse and non-Markovian rewards. Additionally, MP3 maintains the
capability to adapt to changes in the environment during execution. Although
many early successes in robot RL have been achieved by combining RL with MPs,
these approaches are often limited to learning single stroke-based motions,
lacking the ability to adapt to task variations or adjust motions during
execution. Building upon our previous work, which introduced an episode-based
RL method for the non-linear adaptation of MP parameters to different task
variations, this paper extends the approach to incorporating replanning
strategies. This allows adaptation of the MP parameters throughout motion
execution, addressing the lack of online motion adaptation in stochastic
domains requiring feedback. We compared our approach against state-of-the-art
deep RL and RL with MPs methods. The results demonstrated improved performance
in sophisticated, sparse reward settings and in domains requiring replanning.
- Abstract(参考訳): 我々は,移動計画政策(MP3)と呼ばれる新しい深層強化学習(RL)手法を導入する。
運動プリミティブ(MP)を深いRLフレームワークに統合することにより、MP3は学習プロセス全体を通してスムーズな軌道の生成を可能にし、スパースや非マルコフの報酬から効果的に学習する。
さらに、MP3は実行中に環境の変化に適応する能力を維持している。
ロボットRLの初期の成功は、RLとMPを組み合わせることで達成されているが、これらのアプローチは単一のストロークベースの動作の学習に限られており、タスクのバリエーションに適応したり、実行中の動作を調整する能力に欠ける。
本稿では,MPパラメータを異なるタスク変数に非線形に適応するエピソードベースのRL手法を導入し,再計画戦略を取り入れたアプローチを拡張した。
これにより、動きの実行を通してMPパラメータの適応が可能になり、フィードバックを必要とする確率領域におけるオンラインモーション適応の欠如に対処できる。
最先端のRL法とRL法をMPs法と比較した。
その結果,厳密でスパースな報酬設定と再計画を必要とする領域の性能向上が示された。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - On First-Order Meta-Reinforcement Learning with Moreau Envelopes [1.519321208145928]
Meta-Reinforcement Learning (MRL)は、新しい環境タスクに迅速に適応できるトレーニングエージェントのための有望なフレームワークである。
メタ強化学習(MEMRL)を共同で学習する新しいモロー封筒サロゲート正規化器を提案する。
勾配に基づくマルチタスクナビゲーション問題に対するMEMRLの有効性を示す。
論文 参考訳(メタデータ) (2023-05-20T15:46:55Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。