論文の概要: A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
- arxiv url: http://arxiv.org/abs/2604.04913v1
- Date: Mon, 06 Apr 2026 17:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.326666
- Title: A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
- Title(参考訳): フレームは1つの価値 - Delta Tokensによる効率的な生成ワールドモデリング
- Authors: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen,
- Abstract要約: DeltaTokは、連続するフレーム間の特徴差を1つの"デルタ"トークンにエンコードするトークンである。
また,これらのトークンをベースとした生成的世界モデルであるDeltaWorldを紹介し,多種多様な未来を効率的に生成する。
- 参考スコア(独自算出の注目度): 40.71386517238762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.
- Abstract(参考訳): 多様な未来の状態を予想することは、ビデオワールドモデリングにおける中心的な課題である。
差別的世界モデルは、潜在的な未来を暗黙的に平均する決定論的予測を生み出し、既存の生成的世界モデルは計算的に高価である。
近年の研究では、画素再構成に最適化された潜在空間ではなく、視覚基盤モデル(VFM)の機能空間の将来を予測するには、世界モデルパラメーターを著しく少なくする必要があることが示されている。
しかし、そのようなアプローチのほとんどは差別的である。
本研究では,連続するフレーム間のVFM特徴差を1つの連続的な「デルタ」トークンにエンコードするトークンマイザであるDeltaTokと,これらのトークン上で動作する生成世界モデルであるDeltaWorldを紹介する。
デルタトークンは3次元の時空間表現から1次元の時間シーケンスへ動画を還元し、例えば512x512フレームの1,024倍のトークンを還元する。
このコンパクトな表現は、多くの未来が並列に生成され、最良のみが監督される、トラクタブルなマルチハイブリッドトレーニングを可能にする。
推測すると、これは単一の前方通過において多様な予測をもたらす。
密集した予測タスクの実験では、DeltaWorldは実際の結果とより密接な一致を予測し、パラメータは35倍以上少なく、既存の生成的世界モデルよりも2,000倍少ないFLOPを使用する。
コードとウェイト:https://deltatok.github.io.com
関連論文リスト
- FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models [0.0]
現在のアプローチでは、学習された潜在空間で動作するTransformerベースの予測器がデフォルトになっている。
本稿では,予測的世界モデリングに自己注意が必要なのか,それとも代替の計算基板が同等あるいは優れた結果が得られるのか,という根本的な疑問を提起する。
反応拡散型の偏微分方程式(PDE)によって予測力学が支配される概念実証世界モデルであるFluidWorldを紹介する。
論文 参考訳(メタデータ) (2026-03-22T16:49:43Z) - Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens [88.42820935044021]
高次元表現のための最初の離散生成モデルであるCub Discrete Diffusion (CubiD)を述べる。
立方体は高次元離散表現を通してきめ細かいマスキングを行う。
ImageNet-256では、900Mから3.7Bパラメータの強いスケーリング動作を持つ最先端の離散生成を実現している。
論文 参考訳(メタデータ) (2026-03-19T17:59:55Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - Delta-Triplane Transformers as Occupancy World Models [57.16979927973973]
Occupancy World Models (OWMs) は、知的運動計画を支援するために、環境の3次元ボキセル化表現を通して将来のシーンを予測することを目的としている。
本稿では,自律運転のための新しい4DOWMであるDelta-Triplane Transformers (DTT)を提案する。
DTTは1.44$times$ speedup (26 FPS)を最先端に提供し、平均IoUを30.85に改善し、平均絶対計画誤差を1.0mに下げる。
論文 参考訳(メタデータ) (2025-03-10T13:50:23Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Efficient World Models with Context-Aware Tokenization [22.84676306124071]
$Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。
Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
論文 参考訳(メタデータ) (2024-06-27T16:54:12Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。