論文の概要: Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments
- arxiv url: http://arxiv.org/abs/2101.07599v1
- Date: Tue, 19 Jan 2021 12:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:15:23.917685
- Title: Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments
- Title(参考訳): ロボットのダイナミクスと環境変化における適応モータ制御のためのメタ強化学習
- Authors: Timoth\'ee Anne, Jack Wilkinson, Zhibin Li
- Abstract要約: この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, インタラクションモデルを更新し, 推定された状態-作用軌道のアクションをサンプル化し, 最適なアクションを適用し, 報酬を最大化する。
- 参考スコア(独自算出の注目度): 3.5309638744466167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work developed a meta-learning approach that adapts the control policy
on the fly to different changing conditions for robust locomotion. The proposed
method constantly updates the interaction model, samples feasible sequences of
actions of estimated the state-action trajectories, and then applies the
optimal actions to maximize the reward. To achieve online model adaptation, our
proposed method learns different latent vectors of each training condition,
which are selected online given the newly collected data. Our work designs
appropriate state space and reward functions, and optimizes feasible actions in
an MPC fashion which are then sampled directly in the joint space considering
constraints, hence requiring no prior design of specific walking gaits. We
further demonstrate the robot's capability of detecting unexpected changes
during interaction and adapting control policies quickly. The extensive
validation on the SpotMicro robot in a physics simulation shows adaptive and
robust locomotion skills under varying ground friction, external pushes, and
different robot models including hardware faults and changes.
- Abstract(参考訳): この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, 相互作用モデルを常に更新し, 状態-作用軌道の推定可能な行動列をサンプリングし, 報酬を最大化するために最適な行動を適用する。
オンラインモデル適応を実現するために,提案手法では,新たに収集したデータからオンラインに選択したトレーニング条件の潜在ベクトルを学習する。
本研究は,適切な状態空間と報酬関数を設計し,mpc方式で実現可能な動作を最適化し,制約を考慮したジョイント空間内で直接サンプリングすることにより,特定の歩行歩行の事前設計を必要としない。
さらに,インタラクション中に予期せぬ変化を検知し,制御方針を迅速に適応するロボットの能力を示す。
物理シミュレーションにおけるspotmicroロボットの広範な検証は、様々な摩擦、外部の押圧、およびハードウェアの故障や変化を含む異なるロボットモデルの下で適応的でロコモーションスキルを示す。
関連論文リスト
- Bayesian Optimization Meets Hybrid Zero Dynamics: Safe Parameter
Learning for Bipedal Locomotion Control [17.37169551675587]
両足歩行ロボットの移動制御のためのマルチドメイン制御パラメータ学習フレームワークを提案する。
BOを利用して、HZDベースのコントローラで使用される制御パラメータを学習する。
次に、物理ロボットに学習プロセスを適用し、シミュレーションで学習した制御パラメータの修正を学習する。
論文 参考訳(メタデータ) (2022-03-04T20:48:17Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。