論文の概要: VFMF: World Modeling by Forecasting Vision Foundation Model Features
- arxiv url: http://arxiv.org/abs/2512.11225v1
- Date: Fri, 12 Dec 2025 02:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.627213
- Title: VFMF: World Modeling by Forecasting Vision Foundation Model Features
- Title(参考訳): VFMF:Vision Foundation Model Featuresの予測による世界モデリング
- Authors: Gabrijel Boduljak, Yushi Lan, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: 本稿では,視覚基礎モデルの特徴空間における自己回帰フローマッチングを行う生成予測器を提案する。
この潜伏情報の方がPCAベースの代替案よりも効果的であることを示す。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
- 参考スコア(独自算出の注目度): 67.09340259579761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting from partial observations is central to world modeling. Many recent methods represent the world through images, and reduce forecasting to stochastic video generation. Although such methods excel at realism and visual fidelity, predicting pixels is computationally intensive and not directly useful in many applications, as it requires translating RGB into signals useful for decision making. An alternative approach uses features from vision foundation models (VFMs) as world representations, performing deterministic regression to predict future world states. These features can be directly translated into actionable signals such as semantic segmentation and depth, while remaining computationally efficient. However, deterministic regression averages over multiple plausible futures, undermining forecast accuracy by failing to capture uncertainty. To address this crucial limitation, we introduce a generative forecaster that performs autoregressive flow matching in VFM feature space. Our key insight is that generative modeling in this space requires encoding VFM features into a compact latent space suitable for diffusion. We show that this latent space preserves information more effectively than previously used PCA-based alternatives, both for forecasting and other applications, such as image generation. Our latent predictions can be easily decoded into multiple useful and interpretable output modalities: semantic segmentation, depth, surface normals, and even RGB. With matched architecture and compute, our method produces sharper and more accurate predictions than regression across all modalities. Our results suggest that stochastic conditional generation of VFM features offers a promising and scalable foundation for future world models.
- Abstract(参考訳): 部分的な観測から予測することは世界モデリングの中心である。
近年の多くの手法は、画像を通して世界を表現し、確率的ビデオ生成への予測を減らしている。
このような方法は現実主義や視覚的忠実さに優れるが、画素の予測は計算集約的であり、多くのアプリケーションでは直接的に有用ではない。
別のアプローチでは、視覚基盤モデル(VFM)の機能を世界表現として使用し、将来の世界状態を予測するために決定論的回帰を実行する。
これらの特徴は、計算効率を保ちながら、意味的セグメンテーションや深さなどの動作可能な信号に直接変換することができる。
しかし、決定論的回帰平均は複数の有望な未来を越え、不確実性を捉えることに失敗して予測精度を損なう。
この限界に対処するために,VFM特徴空間における自己回帰フローマッチングを行う生成予測器を導入する。
我々の重要な洞察は、この空間における生成的モデリングは、拡散に適したコンパクトな潜在空間にVFM特徴を符号化する必要があるということである。
この潜在空間は、PCAベースの代替案よりも効率的に情報を保存し、予測や画像生成などの他の応用に役立てることを示す。
我々の潜伏予測は、セマンティックセグメンテーション、深さ、表面正規化、さらにはRGBなど、複数の有用かつ解釈可能な出力モダリティに容易にデコードできる。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
この結果から,VFMの確率的条件生成は,将来的なモデルに有望かつスケーラブルな基盤を提供する可能性が示唆された。
関連論文リスト
- Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文 参考訳(メタデータ) (2025-11-30T18:57:25Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。