論文の概要: Taming generative video models for zero-shot optical flow extraction
- arxiv url: http://arxiv.org/abs/2507.09082v1
- Date: Fri, 11 Jul 2025 23:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.278734
- Title: Taming generative video models for zero-shot optical flow extraction
- Title(参考訳): ゼロショット光フロー抽出のための再生ビデオモデルの作成
- Authors: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins,
- Abstract要約: 将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。
対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。
KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
- 参考スコア(独自算出の注目度): 28.176290134216995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting optical flow from videos remains a core computer vision problem. Motivated by the success of large general-purpose models, we ask whether frozen self-supervised video models trained only for future frame prediction can be prompted, without fine-tuning, to output flow. Prior work reading out depth or illumination from video generators required fine-tuning, which is impractical for flow where labels are scarce and synthetic datasets suffer from a sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm, which can obtain point-wise correspondences by injecting a small tracer perturbation into a next-frame predictor and tracking its propagation, we extend this idea to generative video models. We explore several popular architectures and find that successful zero-shot flow extraction in this manner is aided by three model properties: (1) distributional prediction of future frames (avoiding blurry or noisy outputs); (2) factorized latents that treat each spatio-temporal patch independently; and (3) random-access decoding that can condition on any subset of future pixels. These properties are uniquely present in the recent Local Random Access Sequence (LRAS) architecture. Building on LRAS, we propose KL-tracing: a novel test-time procedure that injects a localized perturbation into the first frame, rolls out the model one step, and computes the Kullback-Leibler divergence between perturbed and unperturbed predictive distributions. Without any flow-specific fine-tuning, our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid Kubric (4.7% relative improvement). Our results indicate that counterfactual prompting of controllable generative video models is a scalable and effective alternative to supervised or photometric-loss approaches for high-quality flow.
- Abstract(参考訳): ビデオから光の流れを抽出することは、依然として核心的なコンピュータビジョンの問題である。
大規模な汎用モデルの成功に触発されて,将来的なフレーム予測のために訓練された凍結自己教師型ビデオモデルに,微調整を伴わずに,フローを出力できるかどうかを問う。
ビデオジェネレータから深度や照度を読み出すには微調整が必要で、ラベルが不足し、合成データセットがシミュレート・トゥ・リアルのギャップに悩まされるようなフローには実用的ではない。
次フレームの予測器に小さなトレーサ摂動を注入し,その伝播を追跡することで,ポイントワイズ対応が得られるCWMパラダイムに着想を得て,このアイデアを生成ビデオモデルに拡張する。
この方法でのゼロショットフロー抽出は,(1)将来のフレームの分布予測(ぼやけた出力やノイズのある出力を回避),(2)各時空間パッチを独立に処理する因子化潜水器,(3)将来のピクセルのサブセットに条件付け可能なランダムアクセス復号の3つのモデル特性によって支援される。
これらの特性は、最近のローカルランダムアクセスシーケンス(LRAS)アーキテクチャに固有のものである。
LRAS上に構築したKLトラシングは, 局所摂動を第1フレームに注入し, モデル1ステップをロールアウトし, 摂動分布と非摂動分布のクルバック・リーブラー分岐を計算する。
実世界のTAP-Vid DAVISデータセット(16.6%)と合成TAP-Vid Kubric(4.7%)では,フロー特異的な微調整がなければ最先端モデルよりも優れている。
この結果から,制御可能な生成ビデオモデルの逆ファクトプロンプトは,高品質なフローに対する教師付きあるいは測光損失アプローチに代わる,スケーラブルで効果的な代替手段であることが示唆された。
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Efficient Continuous Video Flow Model for Video Prediction [43.16308241800144]
拡散や修正フローモデルなどの多段階予測モデルでは、単一ステップ法と比較して新しいフレームをサンプリングする際のレイテンシが高くなる。
本稿では,遅延制約を緩和し,映像予測タスクへのこれらのプロセスの適応を容易にすることを目的とした,多段階プロセスのモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T12:11:25Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Efficient Video Prediction via Sparsely Conditioned Flow Matching [24.32740918613266]
本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
論文 参考訳(メタデータ) (2022-11-26T14:18:50Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z) - A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network [17.91970304953206]
フレーム予測のタスクに対して,リカレントネットワークを2つの方法で拡張する新しい変分モデルを提案する。
まず、将来の予測フレームのリカレントモデル、シーケンス入力、各時間ステップでの映像フレーム出力を含む全モジュールに3次元畳み込みを導入する。
第2に,変分モデルで一般的に用いられるklに加えて,最大確率推定を導入することにより,変分モデルの潜在損失予測を強化する。
論文 参考訳(メタデータ) (2020-12-11T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。