論文の概要: World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks
- arxiv url: http://arxiv.org/abs/2605.19957v1
- Date: Tue, 19 May 2026 15:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.465229
- Title: World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks
- Title(参考訳): ハイブリッド・エンボディード・タスクにおける長期進化のワールド・エゴ・モデリング
- Authors: Zuyao Lin, Jianhui Zhang, Peidong Jia, Xiaoguang Zhao, Shanghang Zhang, Xingyu Chen,
- Abstract要約: emphWorld-Ego Modelingは、未来の世界とエゴコンポーネントへの進化を分解する新しい概念パラダイムである。
我々は、このパラダイムを、暗黙の分離したワールド・エゴ・プランナーとカスケード・パラレル・ミックス・オブ・エキスパート(CP-MoE)拡散生成器を結合した統一的な世界モデルであるワールド・エゴ・モデル(WEM)としてインスタンス化する。
- 参考スコア(独自算出の注目度): 62.389116510844445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World models are widely explored in embodied intelligence, yet they typically predict distinct evolutions of the world and the ego within a single stream, where the world captures persistent instruction-agnostic scene regularities and the ego captures robot-centric instruction-conditioned dynamics. This world-ego entanglement leads to a degradation in long-horizon embodied scenarios, particularly in hybrid tasks with interleaved navigation and manipulation behaviors. In this paper, we introduce \emph{World-Ego Modeling}, a new conceptual paradigm that decomposes future evolution into world and ego components. We define the world-ego boundary from three perspectives, i.e., motion-, semantic-, and intention-based views, and analyze three disentanglement strategies with post-, pre-, and full disentanglement. Further, we instantiate this paradigm as the World-Ego Model (WEM), a unified embodied world model that couples an implicit separate world-ego planner with a cascade-parallel mixture-of-experts (CP-MoE) diffusion generator. To enable rigorous evaluation, we further construct HTEWorld, the first benchmark for long-horizon world modeling with hybrid navigation-manipulation tasks, providing 125K video clips (over 4.5M frames) with fine-grained action annotations and 300 multi-turn evaluation trajectories (over 2K instructions). Extensive experiments show that WEM achieves state-of-the-art performance on HTEWorld while remaining competitive on existing manipulation-only benchmarks.
- Abstract(参考訳): 世界モデルはインボディード・インテリジェンス(英語版)で広く研究されているが、通常は1つのストリーム内の世界とエゴの異なる進化を予測し、世界は永続的な命令に依存しないシーンの規則性を捉え、エゴはロボット中心の命令条件のダイナミクスを捉えている。
このワールド・エゴの絡み合いは、特にインターリーブされたナビゲーションと操作行動を持つハイブリッドタスクにおいて、長い水平な実施シナリオを悪化させる。
本稿では,世界とエゴへの未来進化を分解する新しい概念パラダイムである「emph{World-Ego Modeling}」を紹介する。
我々は,3つの視点,すなわち動作,意味,意図に基づく視点から世界・エゴ境界を定義し,ポスト・プレ・フル・アンタングルによる3つのアンタングルメント戦略を解析する。
さらに,このパラダイムを,暗黙の分離したワールド・エゴ・プランナーとカスケード・パラレル・ミックス・オブ・エキスパート(CP-MoE)拡散生成器を結合した統一的な世界モデルであるワールド・エゴ・モデル(WEM)としてインスタンス化する。
より厳密な評価を可能にするため,HTEWorldはハイブリッドナビゲーション操作タスクを用いた長距離世界モデリングのための最初のベンチマークであり,125Kビデオクリップ(4.5Mフレーム以上)に詳細なアクションアノテーションと300のマルチターン評価トラジェクトリ(2K命令以上)を提供する。
大規模な実験により、WEMは既存の操作のみのベンチマークで競争力を維持しながら、HTEWorld上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Xiaomi EV World Model: A Joint World Model Integrating Reconstruction and Generation for Autonomous Driving [51.90209659403234]
本報告では,世界モデルの自律運転における2つのコア機能に対処する統合技術システムを提案する。
世界表現のために,スパースシーンクエリによって駆動されるフィードフォワード再構築アーキテクチャであるWorldRecを提案する。
次世代に向けて,両方向性事前学習のための2段階のトレーニングフレームワークWorldGenを提案し,それに続いて因果微調整を行う。
論文 参考訳(メタデータ) (2026-05-18T09:46:16Z) - WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform [130.8118909583659]
本稿では,世界モデル評価のための拡張ベンチマークであるWorldArena 2.0を紹介する。
WorldArena 2.0は、モダリティ、機能、プラットフォームという3つの次元で、具現化された世界モデルの評価を体系的に拡張する。
WorldArena 2.0は、標準化されたプロトコルの下で、知覚品質、インタラクティブなユーティリティ、クロスプラットフォームのパフォーマンスを包括的に評価する。
論文 参考訳(メタデータ) (2026-05-18T06:18:21Z) - The DAWN of World-Action Interactive Models [30.798493550954703]
世界予測と行動生成は、孤立した並列分岐または厳格な予測理論計画パイプラインとして扱われる。
textbfDAWN (textbfDenoising textbfActions and textbfWorld itextbfNteractive model) は単純だが強力な遅延生成ベースラインである。
DAWNは、複数の自律運転ベンチマークで強い計画性能と良好な安全関連結果を達成する。
論文 参考訳(メタデータ) (2026-05-12T05:30:00Z) - Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [39.648000265543445]
ビデオベースの世界モデルは、ビデオ生成と3D再構成という2つの支配的なパラダイムに沿って登場した。
世界モデリングの未来は、空間構造と時間的進化を共同でモデル化する4D世代にあると我々は主張する。
Omni-WorldBenchは,世界モデルの対話的応答能力を4次元設定で評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-23T17:10:29Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。