論文の概要: Preference-Based Learning for User-Guided HZD Gait Generation on Bipedal
Walking Robots
- arxiv url: http://arxiv.org/abs/2011.05424v2
- Date: Mon, 29 Mar 2021 18:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:35:02.440147
- Title: Preference-Based Learning for User-Guided HZD Gait Generation on Bipedal
Walking Robots
- Title(参考訳): 2足歩行ロボットにおけるユーザガイド型HZD歩行生成の優先学習
- Authors: Maegan Tucker, Noel Csomay-Shanklin, Wen-Loong Ma, and Aaron D. Ames
- Abstract要約: 本稿では,制御理論と機械学習を併用して,安定かつ頑健な二足歩行を実現する枠組みを提案する。
その結果、このフレームワークは、シミュレーション環境に依存することなく、50回未満のイテレーションで安定で、堅牢で、効率的で、そして、自然な歩行を実現することがわかった。
- 参考スコア(独自算出の注目度): 31.994815173888806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework that leverages both control theory and
machine learning to obtain stable and robust bipedal locomotion without the
need for manual parameter tuning. Traditionally, gaits are generated through
trajectory optimization methods and then realized experimentally -- a process
that often requires extensive tuning due to differences between the models and
hardware. In this work, the process of gait realization via hybrid zero
dynamics (HZD) based optimization is formally combined with preference-based
learning to systematically realize dynamically stable walking. Importantly,
this learning approach does not require a carefully constructed reward
function, but instead utilizes human pairwise preferences. The power of the
proposed approach is demonstrated through two experiments on a planar biped
AMBER-3M: the first with rigid point-feet, and the second with induced model
uncertainty through the addition of springs where the added compliance was not
accounted for in the gait generation or in the controller. In both experiments,
the framework achieves stable, robust, efficient, and natural walking in fewer
than 50 iterations with no reliance on a simulation environment. These results
demonstrate a promising step in the unification of control theory and learning.
- Abstract(参考訳): 本稿では,制御理論と機械学習を併用して,手動パラメータチューニングを必要とせず,安定かつ堅牢な2足歩行を実現するフレームワークを提案する。
伝統的に、歩行は軌道最適化によって生成され、実験的に実現される -- モデルとハードウェアの違いのために、広範囲なチューニングを必要とするプロセスである。
本研究は,ハイブリッドゼロダイナミクス(HZD)に基づく歩行実現プロセスと嗜好に基づく学習を組み合わせることで,動的に安定な歩行を体系的に実現する。
重要なのは、この学習アプローチが注意深く構築された報酬機能を必要としないことだ。
提案手法のパワーは,平面2足歩行amber-3mにおける2つの実験により実証された。1つは剛性のあるポイントフェット,もう1つはスプリングの追加によるモデル不確実性である。
どちらの実験でも、このフレームワークは50回未満のイテレーションで安定、堅牢、効率的、自然歩行を実現し、シミュレーション環境に依存しない。
これらの結果は制御理論と学習の統合における有望なステップを示している。
関連論文リスト
- Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。
我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。
その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文 参考訳(メタデータ) (2022-03-13T23:22:12Z) - Bayesian Optimization Meets Hybrid Zero Dynamics: Safe Parameter
Learning for Bipedal Locomotion Control [17.37169551675587]
両足歩行ロボットの移動制御のためのマルチドメイン制御パラメータ学習フレームワークを提案する。
BOを利用して、HZDベースのコントローラで使用される制御パラメータを学習する。
次に、物理ロボットに学習プロセスを適用し、シミュレーションで学習した制御パラメータの修正を学習する。
論文 参考訳(メタデータ) (2022-03-04T20:48:17Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - First Steps: Latent-Space Control with Semantic Constraints for
Quadruped Locomotion [73.37945453998134]
従来の四重化制御のアプローチでは、単純化された手作りのモデルが採用されている。
これにより、有効な運動範囲が縮小されているため、ロボットの能力が大幅に低下する。
この研究において、これらの課題は、構造化潜在空間における最適化として四重化制御をフレーミングすることによって解決される。
深い生成モデルは、実現可能な関節構成の統計的表現を捉え、一方、複雑な動的および終端的制約は高レベルな意味的指標によって表現される。
実世界とシミュレーションの両方で最適化された移動軌跡の実現可能性を検証する。
論文 参考訳(メタデータ) (2020-07-03T07:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。