論文の概要: FastBlend: a Powerful Model-Free Toolkit Making Video Stylization Easier
- arxiv url: http://arxiv.org/abs/2311.09265v1
- Date: Wed, 15 Nov 2023 08:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:21:34.422024
- Title: FastBlend: a Powerful Model-Free Toolkit Making Video Stylization Easier
- Title(参考訳): FastBlend:ビデオスティル化を容易にする強力なモデルフリーツールキット
- Authors: Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang, Mingyi
Jin
- Abstract要約: 本稿では,ビデオ処理の一貫性問題に対処するため,FastBlendという強力なモデルフリーツールキットを提案する。
ブレンディングモードでは、FastBlendはスライドウィンドウ内でフレームをブレンドすることでビデオフリックを除去する。
異なるアプリケーションシナリオに応じて,計算効率と映像品質の両方を最適化する。
- 参考スコア(独自算出の注目度): 24.144338844708386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of diffusion models and rapid development in image
processing, it has become effortless to generate fancy images in tasks such as
style transfer and image editing. However, these impressive image processing
approaches face consistency issues in video processing. In this paper, we
propose a powerful model-free toolkit called FastBlend to address the
consistency problem for video processing. Based on a patch matching algorithm,
we design two inference modes, including blending and interpolation. In the
blending mode, FastBlend eliminates video flicker by blending the frames within
a sliding window. Moreover, we optimize both computational efficiency and video
quality according to different application scenarios. In the interpolation
mode, given one or more keyframes rendered by diffusion models, FastBlend can
render the whole video. Since FastBlend does not modify the generation process
of diffusion models, it exhibits excellent compatibility. Extensive experiments
have demonstrated the effectiveness of FastBlend. In the blending mode,
FastBlend outperforms existing methods for video deflickering and video
synthesis. In the interpolation mode, FastBlend surpasses video interpolation
and model-based video processing approaches. The source codes have been
released on GitHub.
- Abstract(参考訳): 拡散モデルの出現と画像処理の急速な発展により、スタイル転送や画像編集といったタスクで派手な画像を生成することは困難になった。
しかし、これらの印象的な画像処理アプローチは、ビデオ処理における一貫性の問題に直面している。
本稿では,ビデオ処理の一貫性問題に対処するため,FastBlendと呼ばれる強力なモデルフリーツールキットを提案する。
パッチマッチングアルゴリズムに基づいて,ブレンドと補間を含む2つの推論モードを設計する。
ブレンディングモードでは、FastBlendはスライドウィンドウにフレームを混ぜることでビデオフリックを除去する。
さらに、異なるアプリケーションシナリオに応じて、計算効率と映像品質の両方を最適化する。
補間モードでは、拡散モデルでレンダリングされた1つ以上のキーフレームが与えられたら、FastBlendは全ビデオをレンダリングできる。
FastBlendは拡散モデルの生成プロセスを変更しないため、優れた互換性を示す。
大規模な実験により、FastBlendの有効性が実証された。
ブレンディングモードでは、FastBlendは既存のデクリッカリングとビデオ合成の方法より優れている。
補間モードでは、FastBlendはビデオ補間とモデルベースのビデオ処理アプローチを上回る。
ソースコードはGitHubで公開されている。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。