論文の概要: Learning Task-Invariant Properties via Dreamer: Enabling Efficient Policy Transfer for Quadruped Robots
- arxiv url: http://arxiv.org/abs/2604.02911v1
- Date: Fri, 03 Apr 2026 09:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.429207
- Title: Learning Task-Invariant Properties via Dreamer: Enabling Efficient Policy Transfer for Quadruped Robots
- Title(参考訳): ドリーマーによるタスク不変特性の学習:四足歩行ロボットの効率的なポリシー伝達の実現
- Authors: Junyang Liang, Yuxuan Liu, Yabin Chang, Junfan Lin, Junkai Ji, Hui Li, Changxin Huang, Jianqiang Li,
- Abstract要約: DreamTIPフレームワークは、Dreamerの世界モデルアーキテクチャにタスク不変プロパティ学習を組み込んで、sim-to-real転送機能を強化する。
Stair、Climb、Tilt、Crawlといった複雑な地形の実験では、DreamTIPはシミュレーションと実環境の両方で最先端のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 18.600680161472557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving quadruped robot locomotion across diverse and dynamic terrains presents significant challenges, primarily due to the discrepancies between simulation environments and real-world conditions. Traditional sim-to-real transfer methods often rely on manual feature design or costly real-world fine-tuning. To address these limitations, this paper proposes the DreamTIP framework, which incorporates Task-Invariant Properties learning within the Dreamer world model architecture to enhance sim-to-real transfer capabilities. Guided by large language models, DreamTIP identifies and leverages Task-Invariant Properties, such as contact stability and terrain clearance, which exhibit robustness to dynamic variations and strong transferability across tasks. These properties are integrated into the world model as auxiliary prediction targets, enabling the policy to learn representations that are insensitive to underlying dynamic changes. Furthermore, an efficient adaptation strategy is designed, employing a mixed replay buffer and regularization constraints to rapidly calibrate to real-world dynamics while effectively mitigating representation collapse and catastrophic forgetting. Extensive experiments on complex terrains, including Stair, Climb, Tilt, and Crawl, demonstrate that DreamTIP significantly outperforms state-of-the-art baselines in both simulated and real-world environments. Our method achieves an average performance improvement of 28.1% across eight distinct simulated transfer tasks. In the real-world Climb task, the baseline method achieved only a 10\ success rate, whereas our method attained a 100% success rate. These results indicate that incorporating Task-Invariant Properties into Dreamer learning offers a novel solution for achieving robust and transferable robot locomotion.
- Abstract(参考訳): 多様な地形と動的地形にまたがる四足歩行を実現することは、主にシミュレーション環境と実環境との相違により、大きな課題を生んでいる。
従来のsim-to-real転送方式は手動の特徴設計や高価な現実世界の微調整に頼っていることが多い。
本稿では,Dreamerの世界モデルアーキテクチャにタスク不変プロパティ学習を組み込んだDreamTIPフレームワークを提案する。
大規模言語モデルによってガイドされたDreamTIPは、接触安定性や地形クリアランスなどのタスク不変特性を特定し、活用する。
これらの特性は、補助的な予測対象として世界モデルに統合され、基礎となる動的変化に敏感な表現を学習することができる。
さらに、混合再生バッファと正規化制約を用い、実世界の力学を迅速に校正し、表現崩壊や破滅的忘れを効果的に緩和する効率的な適応戦略を設計する。
Stair、Climb、Tilt、Crawlといった複雑な地形に関する大規模な実験は、DreamTIPがシミュレーションと実環境の両方で最先端のベースラインを著しく上回ることを示した。
本手法は,8つの異なる模擬伝達タスクに対して平均28.1%の性能向上を実現する。
実世界のClimbタスクでは,ベースライン法は10倍の成功率しか達成しなかったが,本手法は100%の成功率を達成した。
これらの結果は,タスク不変特性をドリーマー学習に取り入れることで,頑健で移動可能なロボットの移動を実現するための新しいソリューションが提供されることを示唆している。
関連論文リスト
- End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting [3.398964351541323]
そこで本研究では,強化学習政策のシミュレートから現実への移行手法を提案する。
スタイル転送のための自己教師付き特徴表現を共同学習するために,変分オートエンコーダを用いる。
本稿では,未知素材のロボット切断を事例として,本手法の適用例を示す。
論文 参考訳(メタデータ) (2026-01-28T18:45:55Z) - Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-19T17:33:31Z) - Adapting World Models with Latent-State Dynamics Residuals [10.892848566977369]
ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
論文 参考訳(メタデータ) (2025-04-03T03:41:30Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - From Abstraction to Reality: DARPA's Vision for Robust Sim-to-Real Autonomy [6.402441477393285]
TIAMATは、動的および複雑な環境にまたがる自律技術の迅速かつ堅牢な移行に取り組むことを目的としている。
現在のシミュレート・トゥ・リアル(シミュレート・トゥ・リアル)転送の方法は、しばしば高忠実度シミュレーションに依存している。
TIAMATのアプローチは、効果的かつ迅速な現実世界適応のための抽象的から現実的移行を実現することを目的としている。
論文 参考訳(メタデータ) (2025-03-14T02:06:10Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。