論文の概要: Dynamic Policy Learning for Legged Robot with Simplified Model Pretraining and Model Homotopy Transfer
- arxiv url: http://arxiv.org/abs/2512.24698v1
- Date: Wed, 31 Dec 2025 08:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.588744
- Title: Dynamic Policy Learning for Legged Robot with Simplified Model Pretraining and Model Homotopy Transfer
- Title(参考訳): 簡易モデル事前学習とモデルホモトピー移動を用いた足ロボットの動的ポリシー学習
- Authors: Dongyun Kang, Min-Gyu Kim, Tae-Gyu Song, Hajun Kim, Sehoon Ha, Hae-Won Park,
- Abstract要約: 本研究では,モデル事前学習とモデルホモトピー伝達を組み合わせた継続学習フレームワークを導入し,複雑な動的挙動を効率的に生成・洗練する。
我々のフレームワークは、フリップや壁の操作など、様々な動的タスクで検証されており、リアルペダルロボットにうまく展開されている。
- 参考スコア(独自算出の注目度): 9.720210672100762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating dynamic motions for legged robots remains a challenging problem. While reinforcement learning has achieved notable success in various legged locomotion tasks, producing highly dynamic behaviors often requires extensive reward tuning or high-quality demonstrations. Leveraging reduced-order models can help mitigate these challenges. However, the model discrepancy poses a significant challenge when transferring policies to full-body dynamics environments. In this work, we introduce a continuation-based learning framework that combines simplified model pretraining and model homotopy transfer to efficiently generate and refine complex dynamic behaviors. First, we pretrain the policy using a single rigid body model to capture core motion patterns in a simplified environment. Next, we employ a continuation strategy to progressively transfer the policy to the full-body environment, minimizing performance loss. To define the continuation path, we introduce a model homotopy from the single rigid body model to the full-body model by gradually redistributing mass and inertia between the trunk and legs. The proposed method not only achieves faster convergence but also demonstrates superior stability during the transfer process compared to baseline methods. Our framework is validated on a range of dynamic tasks, including flips and wall-assisted maneuvers, and is successfully deployed on a real quadrupedal robot.
- Abstract(参考訳): 脚のあるロボットの動的動きを生成することは、依然として困難な問題である。
強化学習は様々な足の運動タスクにおいて顕著な成功を収めてきたが、非常にダイナミックな振る舞いを生み出すには、広範囲な報酬チューニングや高品質なデモンストレーションが必要であることが多い。
低次モデルの活用は、これらの課題を軽減するのに役立つ。
しかし、このモデルの相違は、ポリシーをフルボディの動的環境に移す際に大きな課題となる。
本研究では,単純化されたモデル事前学習とモデルホモトピー変換を組み合わせた継続学習フレームワークを導入し,複雑な動的挙動を効率的に生成・洗練する。
まず、単一剛体モデルを用いてポリシーを事前訓練し、単純化された環境でコアモーションパターンをキャプチャする。
次に, 性能損失を最小限に抑えつつ, 政策を全体環境に段階的に移行する継続戦略を採用する。
連続経路を定義するために,トランクと脚間の質量と慣性を徐々に再分配することにより,単剛体モデルから全体モデルへのモデルホモトピーを導入する。
提案手法は, より高速な収束を実現するだけでなく, ベースライン法と比較して伝達過程の安定性も向上する。
我々のフレームワークは、フリップや壁の操作など、様々な動的タスクで検証されており、実際の四足歩行ロボットにうまくデプロイされています。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z) - Next Steps: Learning a Disentangled Gait Representation for Versatile
Quadruped Locomotion [69.87112582900363]
現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変更することはできない。
本研究では、特定の歩行を構成する重要な姿勢位相を捉える潜在空間を学習することにより、この制限に対処する。
本研究では, 歩幅, 歩幅, 立位など, 歩行パラメータに直接対応した駆動信号マップの具体的特性を示す。
論文 参考訳(メタデータ) (2021-12-09T10:02:02Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。