論文の概要: RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video
Editing
- arxiv url: http://arxiv.org/abs/2312.12635v3
- Date: Fri, 8 Mar 2024 14:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:56:46.587084
- Title: RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video
Editing
- Title(参考訳): RealCraft: ゼロショット一貫性ビデオ編集ツールとしての注意制御
- Authors: Shutong Jin, Ruiyu Wang, Florian T. Pokorny
- Abstract要約: 本研究では,ゼロショット映像編集のためのアテンション制御方式であるRealCraftを提案する。
新たな特徴注入にクロスアテンションを切り替え、編集対象の空間的注意を緩和することにより、局所的な形状の編集を実現する。
提案するゼロショットアテンション制御方式を,様々なビデオで紹介し,形状,時間一貫性,パラメータフリーな編集方法を示した。
- 参考スコア(独自算出の注目度): 10.356815854662862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though large-scale text-to-image generative models show promising
performance in synthesizing high-quality images, applying these models directly
to image editing remains a significant challenge. This challenge is further
amplified in video editing due to the additional dimension of time. This is
especially the case for editing real-world videos as it necessitates
maintaining a stable structural layout across frames while executing localized
edits without disrupting the existing content. In this paper, we propose
RealCraft, an attention-control-based method for zero-shot real-world video
editing. By swapping cross-attention for new feature injection and relaxing
spatial-temporal attention of the editing object, we achieve localized
shape-wise edit along with enhanced temporal consistency. Our model directly
uses Stable Diffusion and operates without the need for additional information.
We showcase the proposed zero-shot attention-control-based method across a
range of videos, demonstrating shape-wise, time-consistent and parameter-free
editing in videos of up to 64 frames.
- Abstract(参考訳): 大規模なテキスト画像生成モデルは高品質な画像の合成に有望な性能を示すが、これらのモデルを画像編集に直接適用することは大きな課題である。
この課題は、追加の時間次元のため、ビデオ編集においてさらに増幅される。
これは特に、既存のコンテンツを中断することなくローカライズされた編集を実行しながら、フレーム間の安定した構造的レイアウトを維持する必要があるため、現実世界のビデオを編集する場合である。
本稿では,ゼロショット映像編集のための注意制御方式であるRealCraftを提案する。
新たな特徴注入にクロスアテンションを切り替え,編集対象の空間的注意を緩和することにより,時間的一貫性の向上とともに,局所的な形状的編集を実現する。
我々のモデルは安定した拡散を直接利用し、追加情報なしで操作する。
提案したゼロショットアテンション制御方式は,最大64フレームの動画において,形状,時間一貫性,パラメータフリーな編集を実演する。
関連論文リスト
- FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。