論文の概要: Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior
- arxiv url: http://arxiv.org/abs/2604.19102v1
- Date: Tue, 21 Apr 2026 05:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.635398
- Title: Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior
- Title(参考訳): 選択的対向運動を用いた強化学習を用いたヒューマノイドロボットのマルチゲイト学習
- Authors: Yuanye Wu, Keyi Wang, Linqi Ye, Boyang Xing,
- Abstract要約: 本稿では,ヒューマノイドロボットが5つの異なる歩行を習得できるマルチゲット学習手法を提案する。
主な貢献は、選択的な Adversarial Motion Prior (AMP) 戦略である。
選択的なAMPは5つの歩数にまたがって均一なAMPポリシーより優れていることを示す。
- 参考スコア(独自算出の注目度): 1.3888713657872926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning diverse locomotion skills for humanoid robots in a unified reinforcement learning framework remains challenging due to the conflicting requirements of stability and dynamic expressiveness across different gaits. We present a multi-gait learning approach that enables a humanoid robot to master five distinct gaits -- walking, goose-stepping, running, stair climbing, and jumping -- using a consistent policy structure, action space, and reward formulation. The key contribution is a selective Adversarial Motion Prior (AMP) strategy: AMP is applied to periodic, stability-critical gaits (walking, goose-stepping, stair climbing) where it accelerates convergence and suppresses erratic behavior, while being deliberately omitted for highly dynamic gaits (running, jumping) where its regularization would over-constrain the motion. Policies are trained via PPO with domain randomization in simulation and deployed on a physical 12-DOF humanoid robot through zero-shot sim-to-real transfer. Quantitative comparisons demonstrate that selective AMP outperforms a uniform AMP policy across all five gaits, achieving faster convergence, lower tracking error, and higher success rates on stability-focused gaits without sacrificing the agility required for dynamic ones.
- Abstract(参考訳): 統合強化学習フレームワークにおけるヒューマノイドロボットの多様な移動スキルの学習は、異なる歩行における安定性と動的表現性の相反する要求のため、依然として困難である。
本研究では,ヒューマノイドロボットが,一貫した政策構造,行動空間,報酬の定式化を用いて,歩行,グースステッピング,ランニング,階段登り,ジャンプの5つの異なる歩留まりを習得することのできるマルチゲット学習手法を提案する。
AMPは周期的かつ安定な歩行(ウォーキング、グースステッピング、階段登り)に適用され、収束を加速し、不規則な振る舞いを抑える一方で、その規則化が運動を過度に抑制する高度にダイナミックな歩行(ランニング、ジャンプ)に対して故意に省略される。
ポリシは、ドメインランダム化をシミュレーションとしてPPOを通じてトレーニングされ、ゼロショットシミュレートにより物理的な12-DOFヒューマノイドロボットにデプロイされる。
定量的比較により、選択的なAMPは5つの局面すべてで均一なAMPポリシーを上回り、より高速な収束、追跡誤差の低減、動的局面に必要なアジリティを犠牲にすることなく安定性を重視した局面上での成功率の向上を実現している。
関連論文リスト
- Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching [77.28042137892943]
本稿では,人間型ロボットの長期的視覚的パーキングを自律的に行うためのモジュール型フレームワークであるPerceptive Humanoid Parkour(PHP)を提案する。
本研究は、これらの合成動作に対する運動追跡強化学習専門家の政策を訓練し、それらを深度に基づく多スキル学生政策に抽出する。
我々は,Unitree G1ヒューマノイドロボットを用いた実世界実験により,我々のフレームワークを検証した。
論文 参考訳(メタデータ) (2026-02-17T18:59:11Z) - Dynamic Policy Learning for Legged Robot with Simplified Model Pretraining and Model Homotopy Transfer [9.720210672100762]
本研究では,モデル事前学習とモデルホモトピー伝達を組み合わせた継続学習フレームワークを導入し,複雑な動的挙動を効率的に生成・洗練する。
我々のフレームワークは、フリップや壁の操作など、様々な動的タスクで検証されており、リアルペダルロボットにうまく展開されている。
論文 参考訳(メタデータ) (2025-12-31T08:04:22Z) - Bipedalism for Quadrupedal Robots: Versatile Loco-Manipulation through Risk-Adaptive Reinforcement Learning [21.938067330028066]
四足歩行ロボットに二足歩行を導入し,前肢を開放し,環境との多目的インタラクションを実現する。
後肢を歩行する四足歩行ロボットを対象としたリスク適応型分散強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-27T18:51:34Z) - Learning to Move in Rhythm: Task-Conditioned Motion Policies with Orbital Stability Guarantees [45.137864140049814]
我々は,学習した微分型エンコーダと超臨界ホップ分岐を結合したフレームワークであるOrbitally Stable Motion Primitives (OSMPs)を紹介する。
提案手法は,多種多様なロボットプラットフォームにまたがる広範囲なシミュレーションと実世界の実験によって検証される。
論文 参考訳(メタデータ) (2025-07-12T17:10:03Z) - StyleLoco: Generative Adversarial Distillation for Natural Humanoid Robot Locomotion [31.30409161905949]
StyleLocoは、ヒューマノイドの移動を学ぶための新しいフレームワークである。
強化学習の機敏さと人間のような運動の自然な流動性を組み合わせる。
StyleLocoは、ヒューマノイドロボットが多様な移動作業を行うことを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-03-19T10:27:44Z) - CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation [17.94272840532448]
我々は,ロボットが環境内の他のエンティティを制御できるようにする強化学習フレームワークであるCAIMANを提案する。
シミュレーションにおけるCAIMANの優れたサンプル効率と多様なシナリオへの適応性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-02T16:16:53Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z) - Next Steps: Learning a Disentangled Gait Representation for Versatile
Quadruped Locomotion [69.87112582900363]
現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変更することはできない。
本研究では、特定の歩行を構成する重要な姿勢位相を捉える潜在空間を学習することにより、この制限に対処する。
本研究では, 歩幅, 歩幅, 立位など, 歩行パラメータに直接対応した駆動信号マップの具体的特性を示す。
論文 参考訳(メタデータ) (2021-12-09T10:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。