論文の概要: AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.20057v1
- Date: Mon, 23 Feb 2026 17:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.91766
- Title: AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation
- Title(参考訳): AdaWorldPolicy: ロボットマニピュレーションのためのオンライン適応学習による世界モデル駆動拡散政策
- Authors: Ge Yuan, Qiyuan Qiao, Jing Zhang, Dong Xu,
- Abstract要約: オンライン適応学習(AdaWorldPolicy)を用いた統合フレームワーク「世界モデル駆動拡散政策」を導入する。
私たちの中核となる洞察は、世界モデルは強力な監視信号を提供し、動的環境におけるオンライン適応学習を可能にします。
AdaWorldPolicyは、アウト・オブ・ディストリビューションシナリオへの動的適応能力を備えた最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.592383721590402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective robotic manipulation requires policies that can anticipate physical outcomes and adapt to real-world environments. Effective robotic manipulation requires policies that can anticipate physical outcomes and adapt to real-world environments. In this work, we introduce a unified framework, World-Model-Driven Diffusion Policy with Online Adaptive Learning (AdaWorldPolicy) to enhance robotic manipulation under dynamic conditions with minimal human involvement. Our core insight is that world models provide strong supervision signals, enabling online adaptive learning in dynamic environments, which can be complemented by force-torque feedback to mitigate dynamic force shifts. Our AdaWorldPolicy integrates a world model, an action expert, and a force predictor-all implemented as interconnected Flow Matching Diffusion Transformers (DiT). They are interconnected via the multi-modal self-attention layers, enabling deep feature exchange for joint learning while preserving their distinct modularity characteristics. We further propose a novel Online Adaptive Learning (AdaOL) strategy that dynamically switches between an Action Generation mode and a Future Imagination mode to drive reactive updates across all three modules. This creates a powerful closed-loop mechanism that adapts to both visual and physical domain shifts with minimal overhead. Across a suite of simulated and real-robot benchmarks, our AdaWorldPolicy achieves state-of-the-art performance, with dynamical adaptive capacity to out-of-distribution scenarios.
- Abstract(参考訳): 効果的なロボット操作は、物理的な成果を予測し、現実世界の環境に適応できるポリシーを必要とする。
効果的なロボット操作は、物理的な成果を予測し、現実世界の環境に適応できるポリシーを必要とする。
本研究では,オンライン適応学習(AdaWorldPolicy)を用いた世界モデル駆動拡散政策(World-Model-Driven Diffusion Policy)を導入した。
私たちの中核となる洞察は、世界モデルは強力な監視信号を提供し、動的環境におけるオンライン適応学習を可能にします。
我々のAdaWorldPolicyは、相互接続型フローマッチング拡散変換器(DiT)として実装された世界モデル、アクションエキスパート、および力予測器を統合する。
それらはマルチモーダルな自己認識層を介して相互接続され、異なるモジュラリティ特性を維持しながら、ジョイントラーニングのための深い特徴交換を可能にする。
さらに,アクション生成モードとFuture Imaginationモードを動的に切り替えることで,3つのモジュールにまたがるリアクティブアップデートを駆動する新しいオンライン適応学習(AdaOL)戦略を提案する。
これにより、最小限のオーバーヘッドで視覚的および物理的ドメインシフトに適応する強力なクローズドループ機構が生成される。
私たちのAdaWorldPolicyは、シミュレーションと実ロボットのベンチマークスイート全体で最先端のパフォーマンスを実現しています。
関連論文リスト
- World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-23T14:38:15Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。