論文の概要: Generalist Forecasting with Frozen Video Models via Latent Diffusion
- arxiv url: http://arxiv.org/abs/2507.13942v1
- Date: Fri, 18 Jul 2025 14:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.311349
- Title: Generalist Forecasting with Frozen Video Models via Latent Diffusion
- Title(参考訳): 潜時拡散による凍結映像モデルによる一般予測
- Authors: Jacob C Walker, Pedro Vélez, Luisa Polania Cabrera, Guangyao Zhou, Rishabh Kabra, Carl Doersch, Maks Ovsjanikov, João Carreira, Shiry Ginosar,
- Abstract要約: 本稿では,視覚モデルの知覚能力と,短時間の地平線上での予測性能との間に強い相関関係を示す。
本研究は,映像理解のためのブリッジング表現学習と生成モデリングの価値を強調した。
- 参考スコア(独自算出の注目度): 35.96406989431198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting what will happen next is a critical skill for general-purpose systems that plan or act in the world at different levels of abstraction. In this paper, we identify a strong correlation between a vision model's perceptual ability and its generalist forecasting performance over short time horizons. This trend holds across a diverse set of pretrained models-including those trained generatively-and across multiple levels of abstraction, from raw pixels to depth, point tracks, and object motion. The result is made possible by a novel generalist forecasting framework that operates on any frozen vision backbone: we train latent diffusion models to forecast future features in the frozen representation space, which are then decoded via lightweight, task-specific readouts. To enable consistent evaluation across tasks, we introduce distributional metrics that compare distributional properties directly in the space of downstream tasks and apply this framework to nine models and four tasks. Our results highlight the value of bridging representation learning and generative modeling for temporally grounded video understanding.
- Abstract(参考訳): 次に何が起こるかを予測することは、さまざまなレベルの抽象化で世界を計画または行動する汎用システムにとって重要なスキルである。
本稿では、視覚モデルの知覚能力と、短時間の地平線上での予測性能との強い相関関係を同定する。
この傾向は、様々な事前訓練されたモデル – 生のピクセルから深度、点線、オブジェクトの動きに至るまで、様々なレベルの抽象化を訓練されたモデルを含む – にまたがる。
凍結した視覚のバックボーンで動作する新しい一般の予測フレームワークにより、凍結した表現空間における将来の特徴を予測するために潜伏拡散モデルを訓練し、軽量でタスク固有の読み出しを通じてデコードする。
タスク間の一貫した評価を可能にするために、下流タスクの空間における分布特性を直接比較する分散メトリクスを導入し、このフレームワークを9つのモデルと4つのタスクに適用する。
本研究は,映像理解のためのブリッジング表現学習と生成モデリングの価値を強調した。
関連論文リスト
- Multitask Learning with Stochastic Interpolants [13.301909784310894]
本研究では,フローと拡散モデルの時間ダイナミクスを広く一般化した確率分布間のマップ学習フレームワークを提案する。
我々は,スカラー時間変数をベクトル,行列,線形演算子に置き換えることで補間を一般化する。
このアプローチにより、タスク固有のトレーニングを使わずに複数のタスクをこなせる汎用的な生成モデルの構築が可能となる。
論文 参考訳(メタデータ) (2025-08-06T16:25:19Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。
我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。
実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文 参考訳(メタデータ) (2024-06-29T17:57:22Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Predict, Refine, Synthesize: Self-Guiding Diffusion Models for
Probabilistic Time Series Forecasting [10.491628898499684]
時系列の非条件学習拡散モデルであるTSDiffを提案する。
提案する自己誘導機構により、補助的ネットワークやトレーニング手順の変更を必要とせず、推論中に下流タスクに対してTSDiffを条件付けることができる。
本研究では,予測,改良,合成データ生成という3つの時系列タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-21T10:56:36Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。