論文の概要: TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2507.04984v1
- Date: Mon, 07 Jul 2025 13:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.432719
- Title: TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間のためのTLB-VFI
- Authors: Zonglin Lyu, Chen Chen,
- Abstract要約: ビデオフレーム補間(VFI)は、2つの連続する隣接するフレームに基づいて中間フレーム$I_n$を予測することを目的としている。
近年,この課題に拡散モデル(画像ベースとビデオベースの両方)を適用し,高い性能を実現している。
ビデオフレーム補間(TLB-VFI)のための時間対応ラテントブラウン橋拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 4.261090951843438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Frame Interpolation (VFI) aims to predict the intermediate frame $I_n$ (we use n to denote time in videos to avoid notation overload with the timestep $t$ in diffusion models) based on two consecutive neighboring frames $I_0$ and $I_1$. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.
- Abstract(参考訳): Video Frame Interpolation (VFI) は、2つの連続する隣接するフレームである$I_0$ と $I_1$ に基づいて中間フレーム $I_n$ を予測することを目的としている。
近年,この課題に拡散モデル(画像ベースとビデオベースの両方)を適用し,高い性能を実現している。
しかし,画像ベース拡散モデルでは時間的情報を抽出することができず,非拡散法に比べて比較的非効率である。
ビデオベースの拡散モデルは時間的情報を抽出することができるが、トレーニングスケール、モデルサイズ、推論時間という観点では大きすぎる。
上記の問題を緩和するために,ビデオフレーム補間のためのテンポラルアウェアラテントブラウン橋拡散(TLB-VFI)を提案する。
提案した3Dウェーブレットゲーティングと時間認識オートエンコーダにより映像入力から豊富な時間情報を抽出することにより、画像ベース拡散モデルのSOTAよりも難易度の高いデータセット上でFIDを20%改善する。
一方,豊富な時間情報が存在するため,パラメータが3倍少ない場合に高い性能が得られる。
このようなパラメータの削減は2.3倍のスピードアップをもたらす。
光フローガイダンスを組み込むことで、この手法は9000倍のトレーニングデータを必要とし、ビデオベース拡散モデルよりも20倍以上のパラメータを達成できる。
コードと結果は、プロジェクトのページで公開されています。
関連論文リスト
- RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [10.53687668536011]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2025-05-27T11:15:02Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。