論文の概要: Cut-and-Paste: Subject-Driven Video Editing with Attention Control
- arxiv url: http://arxiv.org/abs/2311.11697v1
- Date: Mon, 20 Nov 2023 12:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:06:02.792667
- Title: Cut-and-Paste: Subject-Driven Video Editing with Attention Control
- Title(参考訳): カット・アンド・ペースト:アテンション制御による主題駆動ビデオ編集
- Authors: Zhichao Zuo, Zhao Zhang, Yan Luo, Yang Zhao, Haijun Zhang, Yi Yang,
Meng Wang
- Abstract要約: 本稿では,テキストプロンプトと追加参照画像の指導のもと,実単語のセマンティックビデオ編集のための「カット・アンド・ペースト」という新しいフレームワークを提案する。
現在の方法と比較すると、メソッドのプロセス全体は編集対象のソースオブジェクトをカットし、参照イメージによって提供されるターゲットオブジェクトをカットする。
- 参考スコア(独自算出の注目度): 47.76519877672902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel framework termed Cut-and-Paste for real-word
semantic video editing under the guidance of text prompt and additional
reference image. While the text-driven video editing has demonstrated
remarkable ability to generate highly diverse videos following given text
prompts, the fine-grained semantic edits are hard to control by plain textual
prompt only in terms of object details and edited region, and cumbersome long
text descriptions are usually needed for the task. We therefore investigate
subject-driven video editing for more precise control of both edited regions
and background preservation, and fine-grained semantic generation. We achieve
this goal by introducing an reference image as supplementary input to the
text-driven video editing, which avoids racking your brain to come up with a
cumbersome text prompt describing the detailed appearance of the object. To
limit the editing area, we refer to a method of cross attention control in
image editing and successfully extend it to video editing by fusing the
attention map of adjacent frames, which strikes a balance between maintaining
video background and spatio-temporal consistency. Compared with current
methods, the whole process of our method is like ``cut" the source object to be
edited and then ``paste" the target object provided by reference image. We
demonstrate that our method performs favorably over prior arts for video
editing under the guidance of text prompt and extra reference image, as
measured by both quantitative and subjective evaluations.
- Abstract(参考訳): 本稿では,テキストプロンプトと追加参照画像の指導の下で,実語意味的映像編集のためのカット・アンド・ペーストと呼ばれる新しい枠組みを提案する。
テキスト駆動のビデオ編集は、与えられたテキストプロンプトに従って高度に多様なビデオを生成する能力を示すが、細粒度のセマンティックな編集は、オブジェクトの詳細や編集領域の点でのみプレーンなテキストプロンプトによって制御することは困難であり、通常、タスクには面倒な長いテキスト記述が必要である。
そこで本研究では,編集領域,背景保存,細粒度セマンティクス生成の両方をより正確に制御するための主題駆動ビデオ編集について検討する。
テキスト駆動ビデオ編集に補足的な入力として参照画像を導入することで、オブジェクトの詳細な外観を記述した面倒なテキストプロンプトを脳に取り付けるのを防ぎ、この目標を達成する。
編集領域を限定するため,映像編集におけるクロスアテンション制御の手法を参照し,隣接フレームのアテンションマップを融合させることで映像編集に成功し,映像の背景保持と時空間的一貫性のバランスを取る。
現在のメソッドと比較して、メソッド全体のプロセスは、編集対象のソースオブジェクトを ``cut" し、参照イメージによって提供されるターゲットオブジェクトを ``paste" のようにします。
本手法は,テキストプロンプトと余分な参照画像の指導の下で,定量的評価と主観評価の両方で,映像編集の先行技術よりも有利に機能することを示す。
関連論文リスト
- GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。