論文の概要: RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.12639v1
- Date: Fri, 13 Mar 2026 04:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.9014
- Title: RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization
- Title(参考訳): RoboStereo: 統一政策最適化のための2自由度4Dボブダイド世界モデル
- Authors: Ruicheng Zhang, Guangyu Chen, Zunnan Xu, Zihao Liu, Zhizhou Zhong, Mingyang Zhang, Jun Zhou, Xiu Li,
- Abstract要約: Embodied AIは、現実世界の対話の禁止コストと安全性リスクのために、基本的な制約に直面している。
本稿では,時間的政策強化を利用した2層式4DワールドモデルであるRoboStereoを紹介する。
我々は、世界モデルに基づくポリシー最適化のための最初の統一されたフレームワークを提示する。
- 参考スコア(独自算出の注目度): 27.46861476329755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable Embodied AI faces fundamental constraints due to prohibitive costs and safety risks of real-world interaction. While Embodied World Models (EWMs) offer promise through imagined rollouts, existing approaches suffer from geometric hallucinations and lack unified optimization frameworks for practical policy improvement. We introduce RoboStereo, a symmetric dual-tower 4D world model that employs bidirectional cross-modal enhancement to ensure spatiotemporal geometric consistency and alleviate physics hallucinations. Building upon this high-fidelity 4D simulator, we present the first unified framework for world-model-based policy optimization: (1) Test-Time Policy Augmentation (TTPA) for pre-execution verification, (2) Imitative-Evolutionary Policy Learning (IEPL) leveraging visual perceptual rewards to learn from expert demonstrations, and (3) Open-Exploration Policy Learning (OEPL) enabling autonomous skill discovery and self-correction. Comprehensive experiments demonstrate RoboStereo achieves state-of-the-art generation quality, with our unified framework delivering >97% average relative improvement on fine-grained manipulation tasks.
- Abstract(参考訳): スケーラブルなEmbodied AIは、現実のインタラクションの禁止コストと安全性リスクのために、基本的な制約に直面します。
EWM(Embodied World Models)は、想像上のロールアウトを通じて約束を提供するが、既存のアプローチは幾何学的幻覚に悩まされ、実用的な政策改善のための統一された最適化フレームワークが欠如している。
本稿では,空間的幾何的整合性を確保し,物理幻覚を緩和するために双方向のクロスモーダルエンハンスメントを利用する対称二重塔4D世界モデルであるRoboStereoを紹介する。
この高忠実度4Dシミュレータをベースとして,(1)事前実行検証のためのTTPA(Test-Time Policy Augmentation),(2)専門家によるデモンストレーションから学ぶための視覚的知覚報酬を活用するIEPL(Imitative-Evolutionary Policy Learning),(3)自律的なスキル発見と自己補正を可能にするオープン探索政策学習(Open-Exploration Policy Learning, OEPL)という,世界モデルベースのポリシ最適化のための最初の統一フレームワークを提示する。
総合的な実験により、RoboStereoは最先端の世代品質を実現し、我々の統合されたフレームワークは、きめ細かい操作タスクに対して平均97%の相対的な改善を提供します。
関連論文リスト
- WorldCompass: Reinforcement Learning for Long-Horizon World Models [81.03997753254023]
この研究は、インタラクティブなビデオベースの世界モデルのための新しい強化学習(RL)フレームワークであるWorldを提示する。
本稿では,自己回帰ビデオ生成パラダイムに合わせた3つのコアイノベーションを紹介する。
様々なシナリオにおけるインタラクションの精度と視覚的忠実度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2026-02-09T18:59:47Z) - RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning [8.277689331569787]
本稿では,大規模言語モデルの事前学習と微調整戦略に触発された統一型生成フレームワークUEPOを提案する。
筆者らの貢献は,(1)複数のモデルを訓練することなく,多種多様なモダリティを効率的に捉えるマルチシーズ対応拡散政策,(2)物理的に意味のある政策多様性を強制する動的分散正規化機構,(3)動的モデル一般化を強化する拡散型データ拡張モジュールの3つである。
論文 参考訳(メタデータ) (2025-11-13T08:42:20Z) - WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T17:54:09Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-23T14:38:15Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。