論文の概要: MorFiC: Fixing Value Miscalibration for Zero-Shot Quadruped Transfer
- arxiv url: http://arxiv.org/abs/2603.14554v1
- Date: Sun, 15 Mar 2026 19:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.833983
- Title: MorFiC: Fixing Value Miscalibration for Zero-Shot Quadruped Transfer
- Title(参考訳): MorFiC: ゼロショット擬似転送における値の校正
- Authors: Prakhar Mishra, Amir Hossain Raj, Xuesu Xiao, Dinesh Manocha,
- Abstract要約: 異なる形態を持つ四足歩行ロボット間で学習された移動ポリシーを一般化することは、依然として課題である。
単一共有ポリシを用いたゼロショットクロスモルフォロジーロコモーションのための強化学習手法であるMorFiCを提案する。
また,MorFiCは,形態素間の値予測誤差の分散を低減し,有利な推定値を安定化することを示した。
- 参考スコア(独自算出の注目度): 50.54752207285298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing learned locomotion policies across quadrupedal robots with different morphologies remain a challenge. Policies trained on a single robot often break when deployed on embodiments with different mass distributions, kinematics, joint limits, or actuation constraints, forcing per robot retraining. We present MorFiC, a reinforcement learning approach for zero-shot cross-morphology locomotion using a single shared policy. MorFiC resolves a key failure mode in multi-morphology actor-critic training: a shared critic tends to average incompatible value targets across embodiments, yielding miscalibrated advantages. To address this, MorFiC conditions the critic via morphology-aware modulation driven by robot physical and control parameters, generating morphology-specific value estimates within a shared network. Trained with a single source robot with morphology randomization in simulation, MorFiC can transfer to unseen robots and surpasses morphology-conditioned PPO baselines by improving stable average speed and longest stable run on multiple targets, including speed gains of +16.1% on A1, ~2x on Cheetah, and ~5x on B1. We additionally show that MorFiC reduces the value-prediction error variance across morphologies and stabilizes the advantage estimates, demonstrating that the improved value-function calibration corresponds to a stronger transfer performance. Finally, we demonstrate zero-shot deployment on two Unitree Go1 and Go2 robots without fine-tuning, indicating that critic-side conditioning is a practical approach for cross-morphology generalization.
- Abstract(参考訳): 四足歩行ロボット間で学習された移動ポリシーを一般化することは、依然として課題である。
単一のロボットで訓練されたポリシーは、異なる質量分布、運動学、関節の制限、またはアクティベーションの制約を具現化して、ロボットの再訓練を強制するときにしばしば破られる。
単一共有ポリシを用いたゼロショットクロスモルフォロジーロコモーションのための強化学習手法であるMorFiCを提案する。
MorFiCは、多形態的アクター批判訓練における重要な障害モードを解決している。
この問題に対処するため、MorFiCは、ロボットの物理的および制御パラメータによって駆動される形態素認識変調を通じて批判を条件付け、共有ネットワーク内で形態素固有値推定を生成する。
MorFiCは、シミュレーションで形態素ランダム化を施した単一ソースロボットで訓練されており、平均速度を安定させ、A1では+16.1%、チーターでは~2倍、B1では~5倍の速度向上を達成し、形態素条件のPPOベースラインを超えることができる。
さらに、MorFiCは、モルフォロジー間の値予測誤差のばらつきを低減し、利点推定を安定化し、改良された値関数キャリブレーションがより強い転送性能に対応することを示す。
最後に,Unitree Go1とGo2の2つのロボットに対して,微調整なしでゼロショット展開を実演し,批判側条件付けがクロスモルフォロジーの一般化のための実践的アプローチであることを示唆した。
関連論文リスト
- MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer [55.982504915794514]
クロス・エボディメント・ポリシーは一般的に共有プライベート・アーキテクチャに依存している。
本報告では,MOTIFを効率よく数発のクロスボディーメントトランスファーに適用する。
我々はMOTIFが数発の転送シナリオにおいて強いベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-14T13:21:40Z) - The One RING: a Robotic Indoor Navigation Generalist [58.30694487843546]
RING (Robotic Indoor Navigation Generalist) は、あらゆる移動ロボットを効果的な屋内セマンティックナビゲータに変えるための具体的方針である。
完全にシミュレーションで訓練されたRingは、ロボットによる大規模なランダム化を利用して、多くの現実世界のプラットフォームに堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-12-18T23:15:41Z) - HeteroMorpheus: Universal Control Based on Morphological Heterogeneity Modeling [12.771577344846282]
HeteroMorpheusは異種グラフ変換器に基づく新しい手法である。
政策一般化能力における最先端手法に対するHeteroMorpheusの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-02T12:40:01Z) - Hybrid Internal Model: Learning Agile Legged Locomotion with Simulated
Robot Response [25.52492911765911]
ロボットの応答に応じて外部状態を推定するためにハイブリッド内部モデルを導入する。
この応答は、ハイブリッドな内部埋め込みと呼ばれ、ロボットの明示的な速度と暗黙的な安定性の表現を含んでいる。
実世界の多くの実験が、トレーニングプロセス中に一度も起こらなかった、高度に分散したタスクやケースにおいても、その俊敏性を示している。
論文 参考訳(メタデータ) (2023-12-18T18:59:06Z) - ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse
Quadruped Robots [4.557963624437784]
動物運動制御からインスピレーションを得ることにより、四足歩行ロボットの1つの移動方針を効果的に訓練できることを示す。
我々の方針は脊髄の中央パターン生成器(CPG)の表現を調節する。
我々は,A1ロボットの名目質量の125%に相当する15kgの負荷を付加しても,頑健な性能を観察する。
論文 参考訳(メタデータ) (2023-10-16T15:06:16Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Universal Morphology Control via Contextual Modulation [52.742056836818136]
異なるロボット形態をまたいだ普遍的なポリシーの学習は、継続的な制御における学習効率と一般化を著しく向上させることができる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異種状態と異なる形態のアクション空間を処理する。
本稿では,この依存関係を文脈変調によりモデル化する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-22T00:04:12Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。