論文の概要: Astra: General Interactive World Model with Autoregressive Denoising
- arxiv url: http://arxiv.org/abs/2512.08931v2
- Date: Mon, 15 Dec 2025 03:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.147268
- Title: Astra: General Interactive World Model with Autoregressive Denoising
- Title(参考訳): Astra: 自己回帰による一般的な対話型世界モデル
- Authors: Yixuan Zhu, Jiaqi Feng, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu,
- Abstract要約: Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
- 参考スコア(独自算出の注目度): 73.6594791733982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion transformers have empowered video generation models to generate high-quality video clips from texts or images. However, world models with the ability to predict long-horizon futures from past observations and actions remain underexplored, especially for general-purpose scenarios and various forms of actions. To bridge this gap, we introduce Astra, an interactive general world model that generates real-world futures for diverse scenarios (e.g., autonomous driving, robot grasping) with precise action interactions (e.g., camera motion, robot action). We propose an autoregressive denoising architecture and use temporal causal attention to aggregate past observations and support streaming outputs. We use a noise-augmented history memory to avoid over-reliance on past frames to balance responsiveness with temporal coherence. For precise action control, we introduce an action-aware adapter that directly injects action signals into the denoising process. We further develop a mixture of action experts that dynamically route heterogeneous action modalities, enhancing versatility across diverse real-world tasks such as exploration, manipulation, and camera control. Astra achieves interactive, consistent, and general long-term video prediction and supports various forms of interactions. Experiments across multiple datasets demonstrate the improvements of Astra in fidelity, long-range prediction, and action alignment over existing state-of-the-art world models.
- Abstract(参考訳): 拡散変換器の最近の進歩により、テキストや画像から高品質なビデオクリップを生成するために、ビデオ生成モデルが強化されている。
しかし、過去の観測や行動から長期の未来を予測する能力を持つ世界モデルは、特に汎用シナリオや様々な行動形態において、まだ解明されていない。
このギャップを埋めるために、我々はAstraを紹介した。Astraは、さまざまなシナリオ(例えば、自律運転、ロボットの把握)に対して、正確なアクションインタラクション(例えば、カメラモーション、ロボットアクション)で現実の未来を生成するインタラクティブな汎用的世界モデルである。
本稿では,過去の観測を集約し,ストリーミング出力をサポートするために時間的因果的注意を用いた自己回帰型デノゲーションアーキテクチャを提案する。
我々は、過去のフレームの過度信頼を避けるために、ノイズ強化履歴メモリを使用し、時間的コヒーレンスと応答性のバランスをとる。
動作制御を正確に行うために,動作信号を直接denoisingプロセスに注入する動作認識アダプタを導入する。
さらに、異種行動のモダリティを動的にルーティングし、探索、操作、カメラ制御といった様々な現実世界のタスクにまたがる汎用性を向上するアクションエキスパートの混合を開発する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
複数のデータセットにまたがる実験は、既存の最先端の世界モデルに対する忠実さ、長距離予測、アクションアライメントの改善を実証している。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。