論文の概要: Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation
- arxiv url: http://arxiv.org/abs/2412.17042v1
- Date: Sun, 22 Dec 2024 14:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:10.770741
- Title: Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation
- Title(参考訳): 大規模フレーム補間のための画像と映像の拡散モデルの適用
- Authors: Luoxu Jin, Hiroshi Watanabe,
- Abstract要約: 本稿では,単純で効果的なトレーニング可能なモジュールとして機能する条件付きエンコーダを提案する。
最初のフレームと最後のフレームを活用することで、空間的特徴と時間的特徴を抽出し、条件付きエンコーダに入力する。
条件付きエンコーダの計算された特徴は、生成誘導ビデオシーケンスにおけるビデオ拡散モデルを導く。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The development of video generation models has advanced significantly in recent years. For video frame interpolation, we adopt a pre-trained large-scale image-to-video diffusion model. To enable this adaptation, we propose a conditional encoder, which serves as a simple yet effective trainable module. By leveraging the first and last frames, we extract spatial and temporal features and input them into the conditional encoder. The computed features of the conditional encoder guide the video diffusion model in generating keyframe-guided video sequences. Our method demonstrates superior performance on the Fr\'echet Video Distance (FVD) metric compared to previous deterministic approaches in handling large-motion cases, highlighting advancements in generative-based methodologies.
- Abstract(参考訳): 近年,映像生成モデルの開発が著しく進んでいる。
ビデオフレーム補間には,事前学習した大規模画像間拡散モデルを採用する。
この適応を実現するために,簡単なが効果的なトレーニング可能なモジュールとして機能する条件付きエンコーダを提案する。
最初のフレームと最後のフレームを活用することで、空間的特徴と時間的特徴を抽出し、条件付きエンコーダに入力する。
条件付きエンコーダの計算された特徴は、キーフレーム誘導ビデオシーケンスの生成において、ビデオ拡散モデルを導く。
提案手法は,Fr'echet Video Distance(FVD)測定値において,大規模動画の処理における従来の決定論的アプローチと比較して優れた性能を示し,生成的手法の進歩を強調した。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Flexible Diffusion Modeling of Long Videos [15.220686350342385]
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。
本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。
さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
論文 参考訳(メタデータ) (2022-05-23T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。