論文の概要: RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting
- arxiv url: http://arxiv.org/abs/2604.21355v1
- Date: Thu, 23 Apr 2026 07:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.352968
- Title: RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting
- Title(参考訳): RPG:ヒューマノイド戦闘におけるスムーズなマルチスキル移行のためのロバストポリシーゲーティング
- Authors: Yucheng Xin, Jiacheng Bao, Yubo Dong, Xueqian Wang, Bin Zhao, Xuelong Li, Junbo Tan, Dong Wang,
- Abstract要約: 我々は,スムーズで安定したヒューマノイド多スキル移行のためのハイブリッド・エキスパート・ポリシー・フレームワークであるRPGを提案する。
本手法では,動き遷移のランダム化と時間的ランダム化を取り入れて,アジャイルな戦闘行動を生成する統一的な政策を訓練する。
我々は、歩行/走る移動と戦闘スキルを統合する制御パイプラインを設計し、人間のような長時間の戦闘を任意の期間で行えるようにした。
- 参考スコア(独自算出の注目度): 52.18271301977709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots have demonstrated impressive motor skills in a wide range of tasks, yet whole-body control for humanlike long-time, dynamic fighting remains particularly challenging due to the stringent requirements on agility and stability. While imitation learning enables robots to execute human-like fighting skills, existing approaches often rely on switching among multiple single-skill policies or employing a general policy to imitate input reference motions. These strategies suffer from instability when transitioning between skills, as the mismatch of initial and terminal states across skills or reference motions introduces out-of-domain disturbances, resulting in unsmooth or unstable behaviors. In this work, we propose RPG, a hybrid expert policy framework, for smooth and stable humanoid multi-skills transition. Our approach incorporates motion transition randomization and temporal randomization to train a unified policy that generates agile fighting actions with stability and smoothness during skill transitions. Furthermore, we design a control pipeline that integrates walking/running locomotion with fighting skills, allowing humanlike long-time combat of arbitrary duration that can be seamlessly interrupted or transit action policies at any time. Extensive experiments in simulation demonstrate the effectiveness of the proposed framework, and real-world deployment on the Unitree G1 humanoid robot further validates its robustness and applicability.
- Abstract(参考訳): ヒューマノイドロボットは、幅広いタスクにおいて印象的な運動スキルを誇示してきたが、人間のような長期間にわたる全身的な制御は、俊敏性と安定性に対する厳しい要求のために、特に困難なままである。
模倣学習は、ロボットが人間のような戦闘スキルを実行するのを可能にするが、既存のアプローチでは、複数のシングルスキルポリシーの切り替えや、入力参照動作を模倣するための一般的なポリシーを利用することが多い。
これらの戦略は、初期状態と終端状態のスキルや参照動作のミスマッチが、ドメイン外障害を引き起こすため、スキル間の移行の不安定さに悩まされる。
本研究では,スムーズかつ安定なヒューマノイド多スキル移行のためのハイブリッド・エキスパート・ポリシー・フレームワークであるRPGを提案する。
本手法では, 動作遷移のランダム化と時間的ランダム化を取り入れて, スキル移行時の安定性とスムーズさを伴うアジャイル戦闘行動を生成する統一ポリシを訓練する。
さらに、歩行・走行する移動と戦闘スキルを統合する制御パイプラインを設計し、いつでもシームレスに中断したり、行動方針を移行したりできる、任意の期間の人間のような長時間の戦闘を可能にする。
シミュレーションにおける大規模な実験は、提案したフレームワークの有効性を実証し、Unitree G1のヒューマノイドロボットへの実世界展開は、その堅牢性と適用性をさらに検証する。
関連論文リスト
- Switch: Learning Agile Skills Switching for Humanoid Robots [62.14433450799811]
階層的なマルチスキルシステムであるSwitchを導入し、いつでもシームレスなスキル移行を可能にします。
提案手法は,(1)マルチスキル動作データ内の運動の類似性に基づいて,潜在的なクロススキル遷移を確立するスキルグラフ,(2)深い強化学習を通じて,このスキルグラフ上で訓練された全身追跡ポリシー,(3)堅牢なスキル実行とスムーズな移行のためのトラッキングポリシを駆動するオンラインスキルスケジューラの3つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2026-04-16T10:11:28Z) - Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching [77.28042137892943]
本稿では,人間型ロボットの長期的視覚的パーキングを自律的に行うためのモジュール型フレームワークであるPerceptive Humanoid Parkour(PHP)を提案する。
本研究は、これらの合成動作に対する運動追跡強化学習専門家の政策を訓練し、それらを深度に基づく多スキル学生政策に抽出する。
我々は,Unitree G1ヒューマノイドロボットを用いた実世界実験により,我々のフレームワークを検証した。
論文 参考訳(メタデータ) (2026-02-17T18:59:11Z) - KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.738592041595933]
ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。
我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。
シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文 参考訳(メタデータ) (2025-09-20T11:31:14Z) - Learning to Move in Rhythm: Task-Conditioned Motion Policies with Orbital Stability Guarantees [45.137864140049814]
我々は,学習した微分型エンコーダと超臨界ホップ分岐を結合したフレームワークであるOrbitally Stable Motion Primitives (OSMPs)を紹介する。
提案手法は,多種多様なロボットプラットフォームにまたがる広範囲なシミュレーションと実世界の実験によって検証される。
論文 参考訳(メタデータ) (2025-07-12T17:10:03Z) - StyleLoco: Generative Adversarial Distillation for Natural Humanoid Robot Locomotion [31.30409161905949]
StyleLocoは、ヒューマノイドの移動を学ぶための新しいフレームワークである。
強化学習の機敏さと人間のような運動の自然な流動性を組み合わせる。
StyleLocoは、ヒューマノイドロボットが多様な移動作業を行うことを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-03-19T10:27:44Z) - Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning [54.26816599309778]
動的バランスと強化学習(RL)に基づく新しい全身移動アルゴリズムを提案する。
具体的には,ZMP(Zero-Moment Point)駆動の報酬とタスク駆動の報酬を,全身のアクター批判的枠組みで拡張した尺度を活用することで,動的バランス機構を導入する。
フルサイズのUnitree H1-2ロボットによる実験により、非常に狭い地形でのバランスを維持するための手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-24T14:53:45Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Residual Force Control for Agile Human Behavior Imitation and Extended
Motion Synthesis [32.22704734791378]
強化学習は、モーションキャプチャーデータからヒューマノイド制御ポリシーを学習することで、現実的な人間の行動に大きな可能性を示してきた。
バレエダンスのような洗練された人間のスキルを再現することや、複雑な移行を伴う長期的な人間の振る舞いを安定して模倣することは、依然として非常に困難である。
動作空間に外部残留力を加えることでヒューマノイド制御ポリシーを強化する新しいアプローチである残留力制御(RFC)を提案する。
論文 参考訳(メタデータ) (2020-06-12T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。