論文の概要: Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation
- arxiv url: http://arxiv.org/abs/2412.17042v1
- Date: Sun, 22 Dec 2024 14:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:10.770741
- Title: Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation
- Title(参考訳): 大規模フレーム補間のための画像と映像の拡散モデルの適用
- Authors: Luoxu Jin, Hiroshi Watanabe,
- Abstract要約: 本稿では,単純で効果的なトレーニング可能なモジュールとして機能する条件付きエンコーダを提案する。
最初のフレームと最後のフレームを活用することで、空間的特徴と時間的特徴を抽出し、条件付きエンコーダに入力する。
条件付きエンコーダの計算された特徴は、生成誘導ビデオシーケンスにおけるビデオ拡散モデルを導く。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The development of video generation models has advanced significantly in recent years. For video frame interpolation, we adopt a pre-trained large-scale image-to-video diffusion model. To enable this adaptation, we propose a conditional encoder, which serves as a simple yet effective trainable module. By leveraging the first and last frames, we extract spatial and temporal features and input them into the conditional encoder. The computed features of the conditional encoder guide the video diffusion model in generating keyframe-guided video sequences. Our method demonstrates superior performance on the Fr\'echet Video Distance (FVD) metric compared to previous deterministic approaches in handling large-motion cases, highlighting advancements in generative-based methodologies.
- Abstract(参考訳): 近年,映像生成モデルの開発が著しく進んでいる。
ビデオフレーム補間には,事前学習した大規模画像間拡散モデルを採用する。
この適応を実現するために,簡単なが効果的なトレーニング可能なモジュールとして機能する条件付きエンコーダを提案する。
最初のフレームと最後のフレームを活用することで、空間的特徴と時間的特徴を抽出し、条件付きエンコーダに入力する。
条件付きエンコーダの計算された特徴は、キーフレーム誘導ビデオシーケンスの生成において、ビデオ拡散モデルを導く。
提案手法は,Fr'echet Video Distance(FVD)測定値において,大規模動画の処理における従来の決定論的アプローチと比較して優れた性能を示し,生成的手法の進歩を強調した。
関連論文リスト
- Motion-Aware Generative Frame Interpolation [23.380470636851022]
そこで我々は,明示的な動作誘導を統合することで,モデルの動き認識を高めるために,MoG(Motion-Aware Generative frame)を提案する。
提案手法の汎用性を示すため,実世界とアニメーションの両方のデータセット上でMoGをトレーニングする。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - Enhanced Bi-directional Motion Estimation for Video Frame Interpolation [0.05541644538483946]
本稿では,動画フレーム推定のための新しいアルゴリズムを提案する。
提案手法は,広い範囲の動画フレームベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-17T06:08:43Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。