論文の概要: RecoverFormer: End-to-End Contact-Aware Recovery for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2604.22911v1
- Date: Fri, 24 Apr 2026 17:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.053953
- Title: RecoverFormer: End-to-End Contact-Aware Recovery for Humanoid Robots
- Title(参考訳): RecoverFormer:ヒューマノイドロボットのエンド・ツー・エンドコンタクト・アウェア・リカバリ
- Authors: Zihui Liu,
- Abstract要約: 完全エンドツーエンドのヒューマノイド回復ポリシーであるRECOVERFORMERを提案する。
回復行動の中で、いつ、どのように切り替えるかを学ぶ。
このアーキテクチャは、50ステップの観測履歴に2つの新しい頭を持つ因果変換器を組み合わせたものである。
- 参考スコア(独自算出の注目度): 5.584060970507507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots operating in unstructured environments must recover from unexpected disturbances-a capability that remains challenging for end-to-end control policies. We present RECOVERFORMER, a fully end-to-end humanoid recovery policy that learns when and how to switch among recovery behaviors-including compensatory stepping, hand-environment contact, and center-of-mass reshaping-while maintaining robust performance under model mismatch. The architecture combines a causal transformer over a 50-step observation history with two novel heads: a latent recovery mode that enables smooth transitions among distinct recovery strategies, and a contact affordance head that predicts which environmental surfaces (walls, railings, table edges) are beneficial for stabilization. We evaluate RECOVERFORMER on the Unitree G1 humanoid in MuJoCo. Trained only on open floor, RECOVERFORMER transfers zero shot to walled environments, achieving 100% recovery success across 100-300 N pushes and across wall distances from 0.25-1.4m. Under zero-shot dynamics mismatch, RECOVERFORMER reaches 75.5% at plus +25% mass, 89% under 30 ms latency, 91.5% at low friction, and 99% under compound friction, latency and mass perturbation. The learned latent modes specialize across force regimes without mode-level supervision, validated by t-SNE analysis of 300 episodes. Taken together, these results show that a single end-to-end policy can deliver multi-modal, contact aware humanoid recovery that generalizes across perturbation magnitude, contact geometry, and dynamics shift.
- Abstract(参考訳): 非構造環境で動作しているヒューマノイドロボットは、予期せぬ障害から回復する必要がある。
本稿では, モデルミスマッチ下で頑健な動作を維持しながら, 回復行動の時と方法を学ぶ, 完全エンドツーエンドのヒューマノイド回復政策であるRECOVERFORMERについて述べる。
このアーキテクチャは、50段階の観測履歴上の因果変換器と、異なる回復戦略間のスムーズな遷移を可能にする潜時回復モードと、どの環境表面(壁、手すり、テーブルエッジ)が安定化に役立つかを予測する接触余裕ヘッドの2つの新しいヘッドとを組み合わせる。
We evaluate RECOVERFORMER on the Unitree G1 humanoid in MuJoCo。
オープンフロアでのみ訓練されたRECOVERFORMERは、ゼロショットを壁のある環境に転送し、100-300Nのプッシュで100%リカバリ成功し、壁距離0.25-1.4mに達する。
ゼロショットのダイナミックスミスマッチでは、RECOVERFORMERは75.5%の質量+25%、30ミリ秒以下の遅延、89%が91.5%が低摩擦、99%が複合摩擦、遅延、質量摂動で到達する。
学習された潜伏モードは、300エピソードのt-SNE分析によって検証され、モードレベルの監視を伴わない力体制に特化している。
これらの結果は、単一のエンドツーエンドポリシーが、摂動の規模、接触幾何学、ダイナミックスシフトをまたいで一般化する、マルチモーダルで接触に敏感なヒューマノイド回復をもたらすことを示す。
関連論文リスト
- SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning [4.827821660801356]
本稿では、ペイロード安定化から移動を明示的に分離する階層型強化学習アーキテクチャであるReST-RLを紹介する。
シミュレーションでは、残差設計は歩行の滑らかさと方向精度において、エンドツーエンドのベースラインを著しく上回る。
このモジュラーアプローチは、様々な物体をまたいだ高信頼性ゼロショット sim-to-real 一般化と外部力の乱れを示す。
論文 参考訳(メタデータ) (2026-03-11T01:05:46Z) - Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony [7.6658082440595186]
ばらつきボクセル環境における非対称な3次元追尾回避は,通信遅延,部分観測可能性,非ホロノミック操作制限下では困難である。
経路誘導型分散型追従足場上に構築し,通信自由協調性の向上を図る。
冗長なクロスエージェントチャネルを明示的に切断することで、複合的なエラーカスケードを抑えることができ、レイテンシーが発生しやすいデプロイメントにおけるロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2026-03-09T11:44:04Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Learning to Get Up Across Morphologies: Zero-Shot Recovery with a Unified Humanoid Policy [0.0]
転倒回復は、RoboCupのような動的環境におけるヒューマノイドロボットにとって重要なスキルである。
深層強化学習を用いた最近の技術は、頑健な立ち上がり行動を生み出している。
本稿では,7つのヒューマノイドロボットの転倒から回復できる単一のDRLポリシーを提案する。
論文 参考訳(メタデータ) (2025-12-13T07:59:52Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Learning to Recover: Dynamic Reward Shaping with Wheel-Leg Coordination for Fallen Robots [10.712715061996194]
本稿では,エピソードベースの動的リワードシェーピングとカリキュラム学習を統合した学習フレームワークを提案する。
相乗的ホイールレッグ調整は関節トルクの消費を15.8%、26.2%減少させることを示した。
論文 参考訳(メタデータ) (2025-06-05T18:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。