論文の概要: VFMF: World Modeling by Forecasting Vision Foundation Model Features
- arxiv url: http://arxiv.org/abs/2512.11225v1
- Date: Fri, 12 Dec 2025 02:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.627213
- Title: VFMF: World Modeling by Forecasting Vision Foundation Model Features
- Title(参考訳): VFMF:Vision Foundation Model Featuresの予測による世界モデリング
- Authors: Gabrijel Boduljak, Yushi Lan, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: 本稿では,視覚基礎モデルの特徴空間における自己回帰フローマッチングを行う生成予測器を提案する。
この潜伏情報の方がPCAベースの代替案よりも効果的であることを示す。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
- 参考スコア(独自算出の注目度): 67.09340259579761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting from partial observations is central to world modeling. Many recent methods represent the world through images, and reduce forecasting to stochastic video generation. Although such methods excel at realism and visual fidelity, predicting pixels is computationally intensive and not directly useful in many applications, as it requires translating RGB into signals useful for decision making. An alternative approach uses features from vision foundation models (VFMs) as world representations, performing deterministic regression to predict future world states. These features can be directly translated into actionable signals such as semantic segmentation and depth, while remaining computationally efficient. However, deterministic regression averages over multiple plausible futures, undermining forecast accuracy by failing to capture uncertainty. To address this crucial limitation, we introduce a generative forecaster that performs autoregressive flow matching in VFM feature space. Our key insight is that generative modeling in this space requires encoding VFM features into a compact latent space suitable for diffusion. We show that this latent space preserves information more effectively than previously used PCA-based alternatives, both for forecasting and other applications, such as image generation. Our latent predictions can be easily decoded into multiple useful and interpretable output modalities: semantic segmentation, depth, surface normals, and even RGB. With matched architecture and compute, our method produces sharper and more accurate predictions than regression across all modalities. Our results suggest that stochastic conditional generation of VFM features offers a promising and scalable foundation for future world models.
- Abstract(参考訳): 部分的な観測から予測することは世界モデリングの中心である。
近年の多くの手法は、画像を通して世界を表現し、確率的ビデオ生成への予測を減らしている。
このような方法は現実主義や視覚的忠実さに優れるが、画素の予測は計算集約的であり、多くのアプリケーションでは直接的に有用ではない。
別のアプローチでは、視覚基盤モデル(VFM)の機能を世界表現として使用し、将来の世界状態を予測するために決定論的回帰を実行する。
これらの特徴は、計算効率を保ちながら、意味的セグメンテーションや深さなどの動作可能な信号に直接変換することができる。
しかし、決定論的回帰平均は複数の有望な未来を越え、不確実性を捉えることに失敗して予測精度を損なう。
この限界に対処するために,VFM特徴空間における自己回帰フローマッチングを行う生成予測器を導入する。
我々の重要な洞察は、この空間における生成的モデリングは、拡散に適したコンパクトな潜在空間にVFM特徴を符号化する必要があるということである。
この潜在空間は、PCAベースの代替案よりも効率的に情報を保存し、予測や画像生成などの他の応用に役立てることを示す。
我々の潜伏予測は、セマンティックセグメンテーション、深さ、表面正規化、さらにはRGBなど、複数の有用かつ解釈可能な出力モダリティに容易にデコードできる。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
この結果から,VFMの確率的条件生成は,将来的なモデルに有望かつスケーラブルな基盤を提供する可能性が示唆された。
関連論文リスト
- Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - Towards Agnostic and Holistic Universal Image Segmentation with Bit Diffusion [9.184659875364689]
本稿では,ユニバーサルイメージセグメンテーションのための拡散型フレームワークを提案する。
位置認識型パレットと2Dグレーのコード注文によって性能が向上することを示す。
提案した改善と大規模事前訓練や迅速な条件付けを組み合わせることで、競争モデルが実現できると考えています。
論文 参考訳(メタデータ) (2026-01-06T10:07:14Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文 参考訳(メタデータ) (2025-11-30T18:57:25Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - A Time-Series Foundation Model by Universal Delay Embedding [4.221753069966852]
本研究は,時系列予測に革命をもたらすための事前訓練された基礎モデルであるUniversal Delay Embedding (UDE)を紹介する。
観測データの動的表現としてのUDEは、ハンケル行列から2次元部分空間パッチを構成する。
特に、学習された動的表現とパッチからのクープマン作用素予測形式は例外的な解釈可能性を示す。
論文 参考訳(メタデータ) (2025-09-15T16:11:49Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。