論文の概要: AVID: Any-Length Video Inpainting with Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.03816v1
- Date: Wed, 6 Dec 2023 18:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:15:13.290303
- Title: AVID: Any-Length Video Inpainting with Diffusion Model
- Title(参考訳): AVID:拡散モデルで描いたどんな長編ビデオでも
- Authors: Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan
Zhao, Peter Vajda, Dimitris Metaxas, Licheng Yu
- Abstract要約: 拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
- 参考スコア(独自算出の注目度): 32.02147954358712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models have successfully enabled text-guided
image inpainting. While it seems straightforward to extend such editing
capability into video domain, there has been fewer works regarding text-guided
video inpainting. Given a video, a masked region at its initial frame, and an
editing prompt, it requires a model to do infilling at each frame following the
editing guidance while keeping the out-of-mask region intact. There are three
main challenges in text-guided video inpainting: ($i$) temporal consistency of
the edited video, ($ii$) supporting different inpainting types at different
structural fidelity level, and ($iii$) dealing with variable video length. To
address these challenges, we introduce Any-Length Video Inpainting with
Diffusion Model, dubbed as AVID. At its core, our model is equipped with
effective motion modules and adjustable structure guidance, for fixed-length
video inpainting. Building on top of that, we propose a novel Temporal
MultiDiffusion sampling pipeline with an middle-frame attention guidance
mechanism, facilitating the generation of videos with any desired duration. Our
comprehensive experiments show our model can robustly deal with various
inpainting types at different video duration range, with high quality. More
visualization results is made publicly available at
https://zhang-zx.github.io/AVID/ .
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキスト誘導画像の塗装をうまく実現している。
このような編集機能をビデオ領域に拡張することは簡単と思われるが、テキスト誘導ビデオの塗装に関する作業は少ない。
ビデオ、初期フレームのマスキング領域、編集プロンプトが与えられた場合、マスク外領域をそのまま保ちながら、編集ガイダンスに従って各フレームに埋め込むモデルが必要となる。
i$) 編集されたビデオの時間的一貫性、(ii$) 異なる構造的忠実度レベルで異なるインペインティングタイプをサポートすること、(iii$) 可変ビデオの長さを扱うことである。
これらの課題に対処するために,AVIDと呼ばれる拡散モデルを用いたAny-Length Video Inpaintingを導入する。
このモデルの中心となるのは、固定長ビデオのインペイントのための効果的なモーションモジュールと調整可能な構造ガイダンスである。
そこで本研究では,中間フレームの注意誘導機構を備えた時間的多次元サンプリングパイプラインを提案する。
包括的実験により,映像の持続時間範囲の異なる様々なインペイントタイプを,高品質で頑健に扱えることを示す。
さらなる視覚化結果はhttps://zhang-zx.github.io/AVID/ で公開されている。
関連論文リスト
- Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。