論文の概要: FastBlend: a Powerful Model-Free Toolkit Making Video Stylization Easier
- arxiv url: http://arxiv.org/abs/2311.09265v1
- Date: Wed, 15 Nov 2023 08:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:21:34.422024
- Title: FastBlend: a Powerful Model-Free Toolkit Making Video Stylization Easier
- Title(参考訳): FastBlend:ビデオスティル化を容易にする強力なモデルフリーツールキット
- Authors: Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang, Mingyi
Jin
- Abstract要約: 本稿では,ビデオ処理の一貫性問題に対処するため,FastBlendという強力なモデルフリーツールキットを提案する。
ブレンディングモードでは、FastBlendはスライドウィンドウ内でフレームをブレンドすることでビデオフリックを除去する。
異なるアプリケーションシナリオに応じて,計算効率と映像品質の両方を最適化する。
- 参考スコア(独自算出の注目度): 24.144338844708386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of diffusion models and rapid development in image
processing, it has become effortless to generate fancy images in tasks such as
style transfer and image editing. However, these impressive image processing
approaches face consistency issues in video processing. In this paper, we
propose a powerful model-free toolkit called FastBlend to address the
consistency problem for video processing. Based on a patch matching algorithm,
we design two inference modes, including blending and interpolation. In the
blending mode, FastBlend eliminates video flicker by blending the frames within
a sliding window. Moreover, we optimize both computational efficiency and video
quality according to different application scenarios. In the interpolation
mode, given one or more keyframes rendered by diffusion models, FastBlend can
render the whole video. Since FastBlend does not modify the generation process
of diffusion models, it exhibits excellent compatibility. Extensive experiments
have demonstrated the effectiveness of FastBlend. In the blending mode,
FastBlend outperforms existing methods for video deflickering and video
synthesis. In the interpolation mode, FastBlend surpasses video interpolation
and model-based video processing approaches. The source codes have been
released on GitHub.
- Abstract(参考訳): 拡散モデルの出現と画像処理の急速な発展により、スタイル転送や画像編集といったタスクで派手な画像を生成することは困難になった。
しかし、これらの印象的な画像処理アプローチは、ビデオ処理における一貫性の問題に直面している。
本稿では,ビデオ処理の一貫性問題に対処するため,FastBlendと呼ばれる強力なモデルフリーツールキットを提案する。
パッチマッチングアルゴリズムに基づいて,ブレンドと補間を含む2つの推論モードを設計する。
ブレンディングモードでは、FastBlendはスライドウィンドウにフレームを混ぜることでビデオフリックを除去する。
さらに、異なるアプリケーションシナリオに応じて、計算効率と映像品質の両方を最適化する。
補間モードでは、拡散モデルでレンダリングされた1つ以上のキーフレームが与えられたら、FastBlendは全ビデオをレンダリングできる。
FastBlendは拡散モデルの生成プロセスを変更しないため、優れた互換性を示す。
大規模な実験により、FastBlendの有効性が実証された。
ブレンディングモードでは、FastBlendは既存のデクリッカリングとビデオ合成の方法より優れている。
補間モードでは、FastBlendはビデオ補間とモデルベースのビデオ処理アプローチを上回る。
ソースコードはGitHubで公開されている。
関連論文リスト
- FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video
Editing [10.011515580084243]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for
Video Frame Interpolation [0.0]
本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。
すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで公開されている。
論文 参考訳(メタデータ) (2021-05-27T22:31:40Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。