論文の概要: Time-adaptive Video Frame Interpolation based on Residual Diffusion
- arxiv url: http://arxiv.org/abs/2504.05402v2
- Date: Tue, 15 Apr 2025 18:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 06:45:09.369884
- Title: Time-adaptive Video Frame Interpolation based on Residual Diffusion
- Title(参考訳): 残差拡散に基づく時間適応ビデオフレーム補間
- Authors: Victor Fonte Chavez, Claudia Esteves, Jean-Bernard Hayet,
- Abstract要約: ビデオフレーム(VFI)の拡散に基づく新しい手法を提案する。
本研究では,ビデオフレーム(VFI)の拡散に基づく新しい手法を提案する。
我々は、最先端のモデルに対する広範な比較を行い、このモデルがアニメーションビデオでこれらのモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 2.5261465733373965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a new diffusion-based method for video frame interpolation (VFI), in the context of traditional hand-made animation. We introduce three main contributions: The first is that we explicitly handle the interpolation time in our model, which we also re-estimate during the training process, to cope with the particularly large variations observed in the animation domain, compared to natural videos; The second is that we adapt and generalize a diffusion scheme called ResShift recently proposed in the super-resolution community to VFI, which allows us to perform a very low number of diffusion steps (in the order of 10) to produce our estimates; The third is that we leverage the stochastic nature of the diffusion process to provide a pixel-wise estimate of the uncertainty on the interpolated frame, which could be useful to anticipate where the model may be wrong. We provide extensive comparisons with respect to state-of-the-art models and show that our model outperforms these models on animation videos. Our code is available at https://github.com/VicFonch/Multi-Input-Resshift-Diffusion-VFI.
- Abstract(参考訳): 本研究では,従来の手作りアニメーションの文脈において,ビデオフレーム補間(VFI)の拡散に基づく新しい手法を提案する。
ひとつは,本モデルにおける補間時間を明確に処理し,アニメーション領域で見られる特に大きな変化に対応するために,トレーニングプロセス中にも再見積を行うこと,もうひとつは,超高解像度なコミュニティで最近提案されたResShiftと呼ばれる拡散スキームをVFIに適応・一般化すること,もうひとつは,推定値の生成に非常に少ない拡散ステップを実行できること,もうひとつは,拡散プロセスの確率的性質を活用して,補間フレームの不確かさを画素単位で見積もること,モデルの誤りを予測できること,である。
我々は、最先端のモデルに対する広範な比較を行い、このモデルがアニメーションビデオでこれらのモデルより優れていることを示す。
私たちのコードはhttps://github.com/VicFonch/Multi-Input-Resshift-Diffusion-VFIで利用可能です。
関連論文リスト
- Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation [11.77588746719272]
本稿では、VLFM(Video Latent Flow Matching)と呼ばれる効率的なビデオモデリングプロセスについて考察する。
提案手法は,時間依存の映像フレームにデコード可能な潜在パッチのキャプション誘導流れをモデル化し,既存の強い事前学習画像生成モデルに依存する。
提案手法の有効性を示すために,複数のテキスト・ビデオ・データセットの実験を行った。
論文 参考訳(メタデータ) (2025-02-01T17:40:11Z) - Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0]
本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。
性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。
提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-22T14:49:55Z) - Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。