論文の概要: Learning Policies for Continuous Control via Transition Models
- arxiv url: http://arxiv.org/abs/2209.08033v1
- Date: Fri, 16 Sep 2022 16:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:24:28.730551
- Title: Learning Policies for Continuous Control via Transition Models
- Title(参考訳): 遷移モデルによる連続制御のための学習方針
- Authors: Justus Huebotter, Serge Thill, Marcel van Gerven, Pablo Lanillos
- Abstract要約: ロボット制御では、腕のエンドエフェクターを目標位置または目標軌道に沿って移動させるには、正確な前方および逆モデルが必要である。
相互作用から遷移(前方)モデルを学習することで、償却されたポリシーの学習を促進することができることを示す。
- 参考スコア(独自算出の注目度): 2.831332389089239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is doubtful that animals have perfect inverse models of their limbs (e.g.,
what muscle contraction must be applied to every joint to reach a particular
location in space). However, in robot control, moving an arm's end-effector to
a target position or along a target trajectory requires accurate forward and
inverse models. Here we show that by learning the transition (forward) model
from interaction, we can use it to drive the learning of an amortized policy.
Hence, we revisit policy optimization in relation to the deep active inference
framework and describe a modular neural network architecture that
simultaneously learns the system dynamics from prediction errors and the
stochastic policy that generates suitable continuous control commands to reach
a desired reference position. We evaluated the model by comparing it against
the baseline of a linear quadratic regulator, and conclude with additional
steps to take toward human-like motor control.
- Abstract(参考訳): 動物の手足の完全な逆モデルがあることは疑わしい(例えば、空間上の特定の位置に到達するためには、どの関節にどの筋収縮が適用されるか)。
しかし、ロボット制御では、アームのエンドエフェクタを目標位置または目標軌道に沿って移動させるには、正確な前方および逆のモデルが必要である。
ここでは、相互作用から遷移(前方)モデルを学習することで、償却されたポリシーの学習を促進することができることを示す。
そこで我々は,深層能動推論フレームワークに関してポリシー最適化を再考し,予測誤差からシステムダイナミクスを同時に学習するモジュール型ニューラルネットワークアーキテクチャと,所望の参照位置に到達するための適切な連続制御コマンドを生成する確率的ポリシについて述べる。
線形2次制御器のベースラインと比較し,人間ライクなモータ制御に向けた追加のステップでモデルを評価した。
関連論文リスト
- DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Model-free tracking control of complex dynamical trajectories with
machine learning [0.2356141385409842]
我々は,2腕ロボットマニピュレータを制御するモデルフリーの機械学習フレームワークを開発した。
様々な周期的信号とカオス的信号を用いた制御フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-09-20T17:10:10Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Learning Contraction Policies from Offline Data [1.5771347525430772]
本稿では,契約理論を用いたオフラインデータから収束制御ポリシーを学習するためのデータ駆動手法を提案する。
我々は,契約を施行しながら,制御ポリシとその対応する契約基準を学習する。
我々は,ロボットの目標達成タスクを模擬したフレームワークの性能評価を行った。
論文 参考訳(メタデータ) (2021-12-11T03:48:51Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments [3.5309638744466167]
この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, インタラクションモデルを更新し, 推定された状態-作用軌道のアクションをサンプル化し, 最適なアクションを適用し, 報酬を最大化する。
論文 参考訳(メタデータ) (2021-01-19T12:57:12Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。