論文の概要: SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models
- arxiv url: http://arxiv.org/abs/2509.15536v1
- Date: Fri, 19 Sep 2025 02:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.962451
- Title: SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models
- Title(参考訳): SAMPO:世代別世界モデルのための運動PrOmptを用いたスケールワイドオートレグレス
- Authors: Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang,
- Abstract要約: textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
- 参考スコア(独自算出の注目度): 42.814012901180774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models allow agents to simulate the consequences of actions in imagined environments for planning, control, and long-horizon decision-making. However, existing autoregressive world models struggle with visually coherent predictions due to disrupted spatial structure, inefficient decoding, and inadequate motion modeling. In response, we propose \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO}), a hybrid framework that combines visual autoregressive modeling for intra-frame generation with causal modeling for next-frame generation. Specifically, SAMPO integrates temporal causal decoding with bidirectional spatial attention, which preserves spatial locality and supports parallel decoding within each scale. This design significantly enhances both temporal consistency and rollout efficiency. To further improve dynamic scene understanding, we devise an asymmetric multi-scale tokenizer that preserves spatial details in observed frames and extracts compact dynamic representations for future frames, optimizing both memory usage and model performance. Additionally, we introduce a trajectory-aware motion prompt module that injects spatiotemporal cues about object and robot trajectories, focusing attention on dynamic regions and improving temporal consistency and physical realism. Extensive experiments show that SAMPO achieves competitive performance in action-conditioned video prediction and model-based control, improving generation quality with 4.4$\times$ faster inference. We also evaluate SAMPO's zero-shot generalization and scaling behavior, demonstrating its ability to generalize to unseen tasks and benefit from larger model sizes.
- Abstract(参考訳): 世界モデルでは、エージェントは計画、制御、長期の意思決定のための想像された環境における行動の結果をシミュレートすることができる。
しかし、既存の自己回帰的世界モデルは、空間構造が乱れ、非効率な復号化、不適切な動きモデリングにより、視覚的に一貫性のある予測に苦慮している。
そこで本研究では,フレーム内生成のための視覚的自己回帰モデリングと,次のフレーム生成のための因果モデリングを併用したハイブリッドフレームワークである \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO})を提案する。
具体的には、SAMPOは時間的因果復号と双方向の空間的注意を融合し、空間的局所性を保ち、各スケールで並列復号をサポートする。
この設計は、時間的一貫性とロールアウト効率の両方を大幅に向上させる。
動的シーン理解をさらに改善するため,観測フレーム内の空間的詳細を保存し,メモリ使用量とモデル性能の両方を最適化して,将来のフレームに対するコンパクトな動的表現を抽出する非対称なマルチスケールトークンライザを考案した。
さらに、物体とロボットの軌跡に関する時空間的手がかりを注入し、動的領域に注意を向け、時間的一貫性と身体的リアリズムを改善するトラジェクトリ対応モーションプロンプトモジュールを導入する。
大規模な実験により、SAMPOはアクション条件付きビデオ予測とモデルベース制御における競合性能を達成し、生成品質を4.4$\times$高速推論で改善した。
また、SAMPOのゼロショット一般化とスケーリングの挙動を評価し、未知のタスクに一般化し、より大きなモデルサイズから恩恵を受ける能力を示す。
関連論文リスト
- OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction [25.630452373274636]
OccTENS (OccTENS) は、制御可能な、高忠実な長期の占有率生成を可能にする、世代的占有率の世界モデルである。
我々は、占領世界モデルを時間的次規模予測(TENS)タスクとして再構成する。
OccTENSは、高い占有率と高速な推論時間の両方で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-09-04T05:06:47Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。