論文の概要: Learning to Get Up Across Morphologies: Zero-Shot Recovery with a Unified Humanoid Policy
- arxiv url: http://arxiv.org/abs/2512.12230v1
- Date: Sat, 13 Dec 2025 07:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.177156
- Title: Learning to Get Up Across Morphologies: Zero-Shot Recovery with a Unified Humanoid Policy
- Title(参考訳): あらゆる形態を習得する学習:統一ヒューマノイド政策によるゼロショット回復
- Authors: Jonathan Spraggett,
- Abstract要約: 転倒回復は、RoboCupのような動的環境におけるヒューマノイドロボットにとって重要なスキルである。
深層強化学習を用いた最近の技術は、頑健な立ち上がり行動を生み出している。
本稿では,7つのヒューマノイドロボットの転倒から回復できる単一のDRLポリシーを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fall recovery is a critical skill for humanoid robots in dynamic environments such as RoboCup, where prolonged downtime often decides the match. Recent techniques using deep reinforcement learning (DRL) have produced robust get-up behaviors, yet existing methods require training of separate policies for each robot morphology. This paper presents a single DRL policy capable of recovering from falls across seven humanoid robots with diverse heights (0.48 - 0.81 m), weights (2.8 - 7.9 kg), and dynamics. Trained with CrossQ, the unified policy transfers zero-shot up to 86 +/- 7% (95% CI [81, 89]) on unseen morphologies, eliminating the need for robot-specific training. Comprehensive leave-one-out experiments, morph scaling analysis, and diversity ablations show that targeted morphological coverage improves zero-shot generalization. In some cases, the shared policy even surpasses the specialist baselines. These findings illustrate the practicality of morphology-agnostic control for fall recovery, laying the foundation for generalist humanoid control. The software is open-source and available at: https://github.com/utra-robosoccer/unified-humanoid-getup
- Abstract(参考訳): 転倒回復は、長いダウンタイムがマッチを決定するRoboCupのような動的環境におけるヒューマノイドロボットにとって重要なスキルである。
深部強化学習(DRL)を用いた最近の技術は、頑健な立ち上がり動作を生み出しているが、既存の手法では、ロボット形態ごとに個別のポリシーを訓練する必要がある。
本稿では,高さ0.48~0.81m,重量2.8~7.9kg,動力学の7つのヒューマノイドロボットの転倒から回復できる単一のDRLポリシーを提案する。
CrossQでトレーニングされた統一されたポリシーは、見えない形態のゼロショットを86+/-7%(95% CI [81, 89])に転送し、ロボット固有のトレーニングを不要にする。
総合的な出発点実験、形態スケーリング分析、多様性改善は、標的となる形態的カバレッジがゼロショットの一般化を改善することを示している。
場合によっては、共有ポリシーは専門家の基準を超えることもある。
これらの知見は, 転倒回復のための形態学的非依存制御の実用性を示し, 汎用的ヒューマノイド制御の基礎を築いた。
このソフトウェアはオープンソースであり、https://github.com/utra-robosoccer/unified- Humanoid-getupで入手できる。
関連論文リスト
- Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Toward Humanoid Brain-Body Co-design: Joint Optimization of Control and Morphology for Fall Recovery [55.951691393378354]
フォールリカバリのためのスケーラブルなヒューマノイド共同設計フレームワークであるRoboCraftを提案する。
複数の設計にまたがって事前訓練された共有ポリシーは、ハイパフォーマンスな形態に対して徐々に微調整される。
実験の結果、RoboCraftは7つの公用ヒューマノイドロボットで平均44.55%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-10-25T15:40:18Z) - EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse
Quadruped Robots [4.557963624437784]
動物運動制御からインスピレーションを得ることにより、四足歩行ロボットの1つの移動方針を効果的に訓練できることを示す。
我々の方針は脊髄の中央パターン生成器(CPG)の表現を調節する。
我々は,A1ロボットの名目質量の125%に相当する15kgの負荷を付加しても,頑健な性能を観察する。
論文 参考訳(メタデータ) (2023-10-16T15:06:16Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z) - End-to-end grasping policies for human-in-the-loop robots via deep
reinforcement learning [24.407804468007228]
最新の人間インザループロボットの把握は、EMG(Electromy robustness)推論の問題に大きく苦しんでいます。
本研究では,現実の到達軌道を捉えたループ内ロボットのポリシーをエンドツーエンドでトレーニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-26T19:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。