論文の概要: The DAWN of World-Action Interactive Models
- arxiv url: http://arxiv.org/abs/2605.11550v1
- Date: Tue, 12 May 2026 05:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.60047
- Title: The DAWN of World-Action Interactive Models
- Title(参考訳): World-Action Interactive ModelのDAWN
- Authors: Hongbo Lu, Liang Yao, Chenghao He, Haoyu Wang, Xiang Gu, Xianfei Li, Wenlong Liao, Tao He, Pai Peng,
- Abstract要約: 世界予測と行動生成は、孤立した並列分岐または厳格な予測理論計画パイプラインとして扱われる。
textbfDAWN (textbfDenoising textbfActions and textbfWorld itextbfNteractive model) は単純だが強力な遅延生成ベースラインである。
DAWNは、複数の自律運転ベンチマークで強い計画性能と良好な安全関連結果を達成する。
- 参考スコア(独自算出の注目度): 30.798493550954703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A plausible scene evolution depends on the maneuver being considered, while a good maneuver depends on how the scene may evolve. Existing World Action Models (WAMs) largely miss this reciprocity, treating world prediction and action generation as either isolated parallel branches or rigid predict-then-plan pipelines. We formalize this perspective as World-Action Interactive Models (WAIMs), and instantiate it in autonomous driving with \textbf{DAWN} (\textbf{D}enoising \textbf{A}ctions and \textbf{W}orld i\textbf{N}teractive model), a simple yet strong latent generative baseline. DAWN operates in a compact semantic latent space and couples a \emph{World Predictor} with a \emph{World-Conditioned Action Denoiser}: the predicted world hypothesis conditions action denoising, while the denoised action hypothesis is fed back to update the world prediction, so that both are recursively refined during inference. Rather than eliminating test-time world evolution altogether or rolling out the full future in pixel space, DAWN performs a short explicit latent rollout that is sufficient to support long-horizon trajectory generation in complex interactive scenes. Experiments show that DAWN achieves strong planning performance and favorable safety-related results across multiple autonomous driving benchmarks. More broadly, our results suggest that interactive world-action generation is a principled path toward truly actionable world models.
- Abstract(参考訳): もっともらしいシーンの進化は考慮されている操作に依存するが、良い操作はシーンがどのように進化するかに依存する。
既存のワールドアクションモデル(WAM)は、この相反性をほとんど見逃し、世界予測とアクション生成を独立した並列ブランチまたは厳格な予測テーマプランパイプラインとして扱う。
我々は、この視点をWAIM(World-Action Interactive Model)として定式化し、単純だが強力な潜在的生成ベースラインである \textbf{DAWN} (\textbf{D}enoising \textbf{A}ctions と \textbf{W}orld i\textbf{N}teractive model) を用いて、自律走行においてこれをインスタンス化する。
DAWNはコンパクトなセマンティック潜在空間で機能し、emph{World-Conditioned Action Denoiser} と \emph{World-Conditioned Action Denoiser} を結合する。
DAWNは、テストタイムの世界進化を完全に排除したり、ピクセル空間の完全な未来をロールアウトする代わりに、複雑なインタラクティブなシーンで長い水平軌道生成をサポートするのに十分な、短い明示的な遅延ロールアウトを実行する。
実験により、DAWNは複数の自律運転ベンチマークで強い計画性能と良好な安全関連の結果が得られることが示された。
より広義には、インタラクティブな世界行動生成は、真に実行可能な世界モデルへの原則的な道のりであることを示唆している。
関連論文リスト
- HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving [4.4380564455353975]
CoWorld-VLAは、自動運転のための多専門家の世界推論フレームワークである。
世界表現は行動計画を導くための明確な条件として機能する。
実験によると、CoWorld-VLAは将来のシーン生成と計画の両方で競争力を発揮する。
論文 参考訳(メタデータ) (2026-05-11T12:01:13Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - World Guidance: World Modeling in Condition Space for Action Generation [39.098315503589895]
アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
動作推論パイプラインに注入することで、将来の観測結果をコンパクトな条件にマッピングするフレームワークであるWoGを提案する。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
論文 参考訳(メタデータ) (2026-02-25T15:27:09Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [49.805071498152536]
PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-12T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。