論文の概要: Model-free Reinforcement Learning for Robust Locomotion Using Trajectory
Optimization for Exploration
- arxiv url: http://arxiv.org/abs/2107.06629v1
- Date: Wed, 14 Jul 2021 12:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:23:53.210089
- Title: Model-free Reinforcement Learning for Robust Locomotion Using Trajectory
Optimization for Exploration
- Title(参考訳): 軌道最適化を用いたロバストロバストロコモーションのためのモデルフリー強化学習
- Authors: Miroslav Bogdanovic, Majid Khadiv, Ludovic Righetti
- Abstract要約: 本研究では,ロボットのための汎用2段階強化学習手法を提案する。
関連するタスク報酬は直接最適化され、環境の不確実性に対して堅牢なポリシーが計算される。
実四足歩行ロボットにおけるハイダイナミックホッピングおよびバウンディングタスクにおけるアプローチの性能とロバスト性を実証および検討した。
- 参考スコア(独自算出の注目度): 8.200651321059173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we present a general, two-stage reinforcement learning approach
for going from a single demonstration trajectory to a robust policy that can be
deployed on hardware without any additional training. The demonstration is used
in the first stage as a starting point to facilitate initial exploration. In
the second stage, the relevant task reward is optimized directly and a policy
robust to environment uncertainties is computed. We demonstrate and examine in
detail performance and robustness of our approach on highly dynamic hopping and
bounding tasks on a real quadruped robot.
- Abstract(参考訳): 本研究では,1つの実演軌道から,追加のトレーニングを伴わずにハードウェアに展開可能な堅牢なポリシーに移行するための,一般的な2段階強化学習手法を提案する。
デモは最初の段階で最初の探索を容易にするための出発点として使われます。
第2段階では、関連するタスク報酬を直接最適化し、環境不確実性にロバストなポリシーを算出する。
実四足歩行ロボットにおけるハイダイナミックホッピングおよびバウンディングタスクにおけるアプローチの性能とロバスト性を実証および検討した。
関連論文リスト
- Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots [0.0]
本研究では,微小重力環境下でのロボットプレグラスピングの複雑な課題に対処するために,深層強化学習に基づく制御手法を提案する。
本手法は,ソフトアクター・クリティックな手法を用いて,自由な移動物体にグリッパーが十分に接近できるように,非政治強化学習の枠組みを取り入れたものである。
プレグラスピングのアプローチタスクを効果的に学習するために,エージェントに明確で洞察に富んだフィードバックを提供する報酬関数を開発した。
論文 参考訳(メタデータ) (2024-06-10T16:54:51Z) - TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction [7.3292387742640415]
本稿では,よりリッチなトレーニングダイナミックス情報を,原型的コントラスト学習フレームワークに組み込むことを提案する。
我々は,2つの大規模自然主義データセットを用いたアプローチの実証評価を行った。
論文 参考訳(メタデータ) (2024-04-18T23:12:46Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。