Fugu-MT 論文翻訳(概要): VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model

論文の概要: VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model

arxiv url: http://arxiv.org/abs/2603.12655v1
Date: Fri, 13 Mar 2026 04:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.909331
Title: VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model
Title（参考訳）: VGGT-World:VGGTを自己回帰幾何学世界モデルに変換する
Authors: Xiangyu Sun, Shijie Wang, Fengyi Zhang, Lin Liu, Caiyan Jia, Ziying Song, Zi Huang, Yadan Luo,
Abstract要約: VGGT-World(VGGT-World)は、ビデオ生成を完全にサイドステップで行い、凍った幾何学的境界モデルの特徴の時間的進化を予測する幾何学世界モデルである。 VGGT-Worldは3.6～5倍高速で、トレーニング可能なパラメータはわずか0.43Bである。
参考スコア（独自算出の注目度）: 59.789011777899965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models that forecast scene evolution by generating future video frames devote the bulk of their capacity to photometric details, yet the resulting predictions often remain geometrically inconsistent. We present VGGT-World, a geometry world model that side-steps video generation entirely and instead forecasts the temporal evolution of frozen geometry-foundation-model (GFM) features. Concretely, we repurpose the latent tokens of a frozen VGGT as the world state and train a lightweight temporal flow transformer to autoregressively predict their future trajectory. Two technical challenges arise in this high-dimensional (d=1024) feature space: (i) standard velocity-prediction flow matching collapses, and (ii) autoregressive rollout suffers from compounding exposure bias. We address the first with a clean-target (z-prediction) parameterization that yields a substantially higher signal-to-noise ratio, and the second with a two-stage latent flow-forcing curriculum that progressively conditions the model on its own partially denoised rollouts. Experiments on KITTI, Cityscapes, and TartanAir demonstrate that VGGT-World significantly outperforms the strongest baselines in depth forecasting while running 3.6-5 times faster with only 0.43B trainable parameters, establishing frozen GFM features as an effective and efficient predictive state for 3D world modeling.
Abstract（参考訳）: 将来のビデオフレームを生成することでシーンの進化を予測する世界モデルは、その能力の大部分を測光の詳細に費やしているが、結果として得られる予測は幾何学的に矛盾することが多い。本稿では,VGGT-Worldについて述べる。VGGT-Worldはビデオ生成を完全にサイドステップし,凍った幾何境界モデル(GFM)の時間的進化を予測できる幾何学世界モデルである。具体的には,凍結したVGGTの潜伏トークンを世界状態として再利用し,その将来を自動回帰的に予測する軽量時流変圧器を訓練する。この高次元(d=1024)特徴空間に2つの技術的課題が生じる。一標準速度予測流量整合崩壊 (II) 自己回帰ロールアウトは暴露バイアスの複合化に悩まされる。第一に,信号対雑音比がかなり高いクリーンターゲット(z述語)パラメータ化,第二に,段階的にモデルを部分的に特定したロールアウトで段階的に条件付けする2段階の潜時流強制カリキュラムを提案する。 KITTI、Cityscapes、TartanAirの実験では、VGGT-Worldは3.6～5倍高速でトレーニング可能なパラメータが0.43Bしかなく、深度予測における最強のベースラインを著しく上回っており、3Dワールドモデリングの効率的かつ効率的な予測状態として、凍結したGFM特性が確立されている。

関連論文リスト

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。 PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文参考訳（メタデータ） (2026-02-21T07:22:37Z)
SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。 GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-27T02:48:45Z)
Improving Tropical Cyclone Forecasting With Video Diffusion Models [0.0]
熱帯サイクロン(TC)予測は,災害対策と緩和に不可欠である。本稿では,時間的依存関係を付加的な時間的階層を通じて明示的にモデル化する,TC予測のためのビデオ拡散モデルの新たな適用法を提案する。提案手法により,複数のフレームを同時に生成し,サイクロンの進化パターンをよりよく捉えることができる。
論文参考訳（メタデータ） (2025-01-27T12:42:20Z)
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文参考訳（メタデータ） (2024-12-18T12:10:33Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。