論文の概要: Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors
- arxiv url: http://arxiv.org/abs/2605.18611v1
- Date: Mon, 18 May 2026 16:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.013903
- Title: Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors
- Title(参考訳): 状態依存型対向運動によるヒューマノイドの統一歩行・走行・回復
- Authors: Yidan Lu, Yichao Zhong, Liu Zhao, Wanyue Li, Peng Lu,
- Abstract要約: 本研究では,Unitree G1ヒューマノイドロボットの歩行,ランニング,転倒回復を単一ポリシーで行うための統合強化学習フレームワークを提案する。
このフレームワークは、従来のグローバルな参照分布を状態依存ゲートに置き換えることで、Adrial Motion Priors (AMP)を拡張する。
単一の凍結されたONNXポリシーは、実行時モードロジックなしで50,Hzで実行される。
- 参考スコア(独自算出の注目度): 6.995416877684324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a unified reinforcement learning framework that enables a single policy to perform walking, running, and fall recovery on the Unitree G1 humanoid robot, validated on physical hardware without any explicit mode-switching command at deployment. The framework extends Adversarial Motion Priors (AMP) by replacing the conventional global reference distribution with a state-dependent gate that routes each training transition to one of two discriminators: a dedicated recovery discriminator and a velocity-conditioned locomotion discriminator that jointly covers walking and running. The gate is defined by a single fixed threshold on projected gravity: the recovery discriminator is activated when body tilt exceeds approximately $37^\circ$ from vertical ($|g_z+1|>0.6$); otherwise the locomotion discriminator is used, with the normalized commanded velocity serving as a condition that selects the appropriate reference trajectory between walk and run clips. Only three LAFAN1 reference clips are required to regularize the complete behavior set. At deployment, a single frozen ONNX policy executes at 50\,Hz with no runtime mode logic; hardware experiments demonstrate successful recovery from both prone and supine falls and smooth walk-to-run transitions under the same controller.
- Abstract(参考訳): 本研究では,Unitree G1ヒューマノイドロボットの歩行,ランニング,転倒回復を,展開時に明確なモードスイッチングコマンドを使わずに,物理ハードウェア上で検証可能な統合強化学習フレームワークを提案する。
このフレームワークは、従来のグローバルな基準分布を、専用のリカバリディミネータと、歩行と走行を共同でカバーする速度条件のロコモーションディミネータという、2つのディミネータの1つに、各トレーニングトランジションをルートする状態依存ゲートに置き換えることで、Adversarial Motion Priors (AMP)を拡張している。
このゲートは、投射重力の1つの固定しきい値で定義される: 体の傾きが垂直(|g_z+1|>0.6$)から約37^\circ$を超えると、リカバリ判別器が活性化される。
LAFAN1参照クリップは、完全な振る舞いセットを正規化するために3つしか必要とされない。
ハードウェア実験では、羽ばたきと羽ばたきの両方からの回復と、同じコントローラの下でスムーズなウォーク・トゥ・ラン・トランジションを実証している。
関連論文リスト
- Simple but Stable, Fast and Safe: Achieve End-to-end Control by High-Fidelity Differentiable Simulation [14.322775509774246]
障害物回避(Obstacle avoidance)は、四重項が高度なアプリケーションを実行できるようにするための基本的な視覚ベースのタスクである。
本稿では,深度画像を直接低レベルのボディレートコマンドにマッピングする新しいエンドツーエンドポリシーを提案する。
その結果,提案手法は,最先端のベースラインの中で,最も成功率が高く,かつ最低であることがわかった。
論文 参考訳(メタデータ) (2026-04-12T09:38:00Z) - MorFiC: Fixing Value Miscalibration for Zero-Shot Quadruped Transfer [50.54752207285298]
異なる形態を持つ四足歩行ロボット間で学習された移動ポリシーを一般化することは、依然として課題である。
単一共有ポリシを用いたゼロショットクロスモルフォロジーロコモーションのための強化学習手法であるMorFiCを提案する。
また,MorFiCは,形態素間の値予測誤差の分散を低減し,有利な推定値を安定化することを示した。
論文 参考訳(メタデータ) (2026-03-15T19:03:34Z) - Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces [3.349003999623489]
本稿では,カスタム6自由度上肢ロボットのための共有制御型リハビリテーションポリシーを提案する。
患者は二進法で一次到達方向を制御し、ロボットは自律的に矯正動作を管理する。
論文 参考訳(メタデータ) (2026-03-06T11:15:10Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Mind the Gap: Learning Implicit Impedance in Visuomotor Policies via Intent-Execution Mismatch [7.078279704479455]
本稿では,学習目標を「インテント・クローン(マスター・コマンド)」にシフトさせるデュアルステート・コンディショニング・フレームワークを提案する。
マスター意図を予測することによって、我々の政策は「仮想平衡点」を生成することを学び、暗黙のインピーダンス制御を効果的に実現した。
これは、低コストハードウェアのための最小限の動作クローニングフレームワークを示し、明示的な力センシングに頼ることなく、力知覚と動的補償を可能にする。
論文 参考訳(メタデータ) (2026-02-09T15:18:12Z) - Robust and Generalized Humanoid Motion Tracking [17.58241987932198]
一般的なヒューマノイド全体制御器の学習は、ロボット領域に移動された後、実用的な参照動作がノイズや不整合を示す可能性があるため、困難である。
本稿では,因果的時間的エンコーダを用いた動的条件付きコマンドアグリゲーションフレームワークの提案と,コンテキストウィンドウを選択的に集約するマルチヘッド・クロスアテンション・コマンドエンコーダを提案する。
提案手法は多種多様な参照入力と挑戦的な動作条件の下で評価され,無見えない動作へのゼロショット転送と,物理的ヒューマノイドロボットへのロバストなシミュレート・トゥ・リアル転送が実証された。
論文 参考訳(メタデータ) (2026-01-30T15:27:43Z) - AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers [49.796014934503184]
本研究では、単一モデルで多様なロボット形態に人間の動きを適応させることができる統一型ニューラルネットワークフレームワークを提案する。
12個の異なるヒューマノイドロボットの実験結果から、AdaMorphが異種トポロジにわたって効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2026-01-12T07:39:38Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Adapting Rapid Motor Adaptation for Bipedal Robots [73.5914982741483]
移動制御の急速な適応の最近の進歩を活用し、二足歩行ロボットで作業できるように拡張する。
A-RMAはモデルフリーRLを用いて微調整することで不完全外部推定器の基本方針を適応する。
シミュレーションにおいて,A-RMAはRLベースのベースラインコントローラやモデルベースコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-30T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。