論文の概要: Learning Primitive Embodied World Models: Towards Scalable Robotic Learning
- arxiv url: http://arxiv.org/abs/2508.20840v1
- Date: Thu, 28 Aug 2025 14:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.453903
- Title: Learning Primitive Embodied World Models: Towards Scalable Robotic Learning
- Title(参考訳): 原始的身体的世界モデル学習 : スケーラブルなロボット学習を目指して
- Authors: Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu,
- Abstract要約: 我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
- 参考スコア(独自算出の注目度): 50.32986780156215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a "GPT moment" in the embodied domain. There is a naive observation: the diversity of embodied data far exceeds the relatively small space of possible primitive motions. Based on this insight, we propose a novel paradigm for world modeling--Primitive Embodied World Models (PEWM). By restricting video generation to fixed short horizons, our approach 1) enables fine-grained alignment between linguistic concepts and visual representations of robotic actions, 2) reduces learning complexity, 3) improves data efficiency in embodied data collection, and 4) decreases inference latency. By equipping with a modular Vision-Language Model (VLM) planner and a Start-Goal heatmap Guidance mechanism (SGG), PEWM further enables flexible closed-loop control and supports compositional generalization of primitive-level policies over extended, complex tasks. Our framework leverages the spatiotemporal vision priors in video models and the semantic awareness of VLMs to bridge the gap between fine-grained physical interaction and high-level reasoning, paving the way toward scalable, interpretable, and general-purpose embodied intelligence.
- Abstract(参考訳): ビデオジェネレーションベースのエンボディドワールドモデルは注目されているが、大規模なエンボディドインタラクションデータへの依存は依然として重要なボトルネックである。
エンボディドデータの不足、収集の難しさ、そして高次元性は、言語と行動間のアライメントの粒度を根本的に制限し、エンボディドドメインにおける「GPTモーメント」達成から生成モデルを誘導することによる、長期水平ビデオ生成の課題を悪化させる。この観点から、エンボディドデータの多様性は、プリミティブ・モーションの比較的小さな空間をはるかに超え、世界モデリングの新たなパラダイムであるプリミティブ・エンボディド・ワールド・モデル(PEWM)を提案する。
ビデオ生成を固定短地平線に制限することにより、我々のアプローチ
1) 言語概念とロボット行動の視覚的表現の微調整を可能にする。
2)学習の複雑さを減らす。
3)具体化データ収集におけるデータ効率の向上,及び
4)推論遅延を減少させる。
モジュール型ビジョンランゲージモデル(VLM)プランナーとスタートゴールヒートマップ誘導機構(SGG)を備えることにより、PEWMはさらに柔軟なクローズループ制御を可能にし、拡張された複雑なタスクに対するプリミティブレベルポリシーの構成的一般化をサポートする。
我々のフレームワークは、ビデオモデルにおける時空間的ビジョンとVLMのセマンティックな認識を利用して、細粒度の物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
関連論文リスト
- ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents [14.75400720374728]
ERMV(Robotic Multi-View 4D data framework)は、単一フレームの編集とロボットの状態条件に基づいて、全マルチビューシーケンスを効率的に編集する。
創発されたデータは、シミュレーションと実世界の両方の環境でモデルの堅牢性とガイダンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-07-23T12:41:11Z) - Learning World Models for Interactive Video Generation [21.028685555298292]
我々は、アクションコンディショニングと自動回帰フレームワークにより、インタラクティブな機能を備えた映像間モデルを強化する。
そこで本稿では, 長期のコンプレックスエラーを著しく低減するグローバルな条件付きビデオ検索拡張生成(VRAG)を提案する。
我々の研究は、内部世界モデリング機能を備えたビデオ生成モデルを改善するための包括的なベンチマークを確立する。
論文 参考訳(メタデータ) (2025-05-28T05:55:44Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。