論文の概要: SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models
- arxiv url: http://arxiv.org/abs/2509.15536v1
- Date: Fri, 19 Sep 2025 02:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.962451
- Title: SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models
- Title(参考訳): SAMPO:世代別世界モデルのための運動PrOmptを用いたスケールワイドオートレグレス
- Authors: Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang,
- Abstract要約: textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
- 参考スコア(独自算出の注目度): 42.814012901180774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models allow agents to simulate the consequences of actions in imagined environments for planning, control, and long-horizon decision-making. However, existing autoregressive world models struggle with visually coherent predictions due to disrupted spatial structure, inefficient decoding, and inadequate motion modeling. In response, we propose \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO}), a hybrid framework that combines visual autoregressive modeling for intra-frame generation with causal modeling for next-frame generation. Specifically, SAMPO integrates temporal causal decoding with bidirectional spatial attention, which preserves spatial locality and supports parallel decoding within each scale. This design significantly enhances both temporal consistency and rollout efficiency. To further improve dynamic scene understanding, we devise an asymmetric multi-scale tokenizer that preserves spatial details in observed frames and extracts compact dynamic representations for future frames, optimizing both memory usage and model performance. Additionally, we introduce a trajectory-aware motion prompt module that injects spatiotemporal cues about object and robot trajectories, focusing attention on dynamic regions and improving temporal consistency and physical realism. Extensive experiments show that SAMPO achieves competitive performance in action-conditioned video prediction and model-based control, improving generation quality with 4.4$\times$ faster inference. We also evaluate SAMPO's zero-shot generalization and scaling behavior, demonstrating its ability to generalize to unseen tasks and benefit from larger model sizes.
- Abstract(参考訳): 世界モデルでは、エージェントは計画、制御、長期の意思決定のための想像された環境における行動の結果をシミュレートすることができる。
しかし、既存の自己回帰的世界モデルは、空間構造が乱れ、非効率な復号化、不適切な動きモデリングにより、視覚的に一貫性のある予測に苦慮している。
そこで本研究では,フレーム内生成のための視覚的自己回帰モデリングと,次のフレーム生成のための因果モデリングを併用したハイブリッドフレームワークである \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO})を提案する。
具体的には、SAMPOは時間的因果復号と双方向の空間的注意を融合し、空間的局所性を保ち、各スケールで並列復号をサポートする。
この設計は、時間的一貫性とロールアウト効率の両方を大幅に向上させる。
動的シーン理解をさらに改善するため,観測フレーム内の空間的詳細を保存し,メモリ使用量とモデル性能の両方を最適化して,将来のフレームに対するコンパクトな動的表現を抽出する非対称なマルチスケールトークンライザを考案した。
さらに、物体とロボットの軌跡に関する時空間的手がかりを注入し、動的領域に注意を向け、時間的一貫性と身体的リアリズムを改善するトラジェクトリ対応モーションプロンプトモジュールを導入する。
大規模な実験により、SAMPOはアクション条件付きビデオ予測とモデルベース制御における競合性能を達成し、生成品質を4.4$\times$高速推論で改善した。
また、SAMPOのゼロショット一般化とスケーリングの挙動を評価し、未知のタスクに一般化し、より大きなモデルサイズから恩恵を受ける能力を示す。
関連論文リスト
- Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics [51.85385061275941]
分子動力学(MD)シミュレーションは、タンパク質動力学研究のゴールドスタンダードのままである。
近年の生成モデルではシミュレーションの加速が期待できるが、長軸生成に苦慮している。
物理的に可塑性なタンパク質軌道をマイクロスケールの時間スケールで生成する拡張拡散モデルSTAR-MDを提案する。
論文 参考訳(メタデータ) (2026-02-02T14:13:28Z) - High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation [34.450956424316196]
ビデオに基づく人間のポーズ推定には高分解能時間表現のモデル化が不可欠である。
現在の最先端の手法は、大域的および局所的動的モデリングのバランスをとるのが難しいのが普通である。
本稿では,VHPEのグローバルおよびローカルな高解像度表現を個別に学習するために,Mambaコンテキストを拡張したフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T05:18:27Z) - OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction [25.630452373274636]
OccTENS (OccTENS) は、制御可能な、高忠実な長期の占有率生成を可能にする、世代的占有率の世界モデルである。
我々は、占領世界モデルを時間的次規模予測(TENS)タスクとして再構成する。
OccTENSは、高い占有率と高速な推論時間の両方で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-09-04T05:06:47Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Predicting Physics in Mesh-reduced Space with Temporal Attention [15.054026802351146]
本稿では,トランス方式の時間的アテンションモデルを用いて,長期的依存関係をキャプチャする手法を提案する。
本手法は, 複雑な流体力学予測タスクにおいて, 競合するGNNベースラインよりも優れる。
我々のアプローチは、高次元複雑な物理課題の解決に注意に基づくシーケンスモデルの利点をもたらす道を開いたと信じている。
論文 参考訳(メタデータ) (2022-01-22T18:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。