論文の概要: InFusion: Inject and Attention Fusion for Multi Concept Zero Shot Text
based Video Editing
- arxiv url: http://arxiv.org/abs/2308.00135v2
- Date: Wed, 2 Aug 2023 16:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:05:00.725934
- Title: InFusion: Inject and Attention Fusion for Multi Concept Zero Shot Text
based Video Editing
- Title(参考訳): infusion:マルチコンセプトゼロショットテキストによるビデオ編集のためのインジェクション・アンド・アテンション・フュージョン
- Authors: Anant Khandelwal
- Abstract要約: InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベル制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの低コストな代替品です。
- 参考スコア(独自算出の注目度): 27.661609140918916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large text-to-image diffusion models have achieved remarkable success in
generating diverse high-quality images in alignment with text prompt used for
editing the input image. But, when these models applied to video the main
challenge is to ensure temporal consistency and coherence across frames. In
this paper, we proposed InFusion, a framework for zero-shot text-based video
editing leveraging large pre-trained image diffusion models. Our framework
specifically supports editing of multiple concepts with the pixel level control
over diverse concepts mentioned in the editing prompt. Specifically, we inject
the difference of features obtained with source and edit prompt from U-Net
residual blocks in decoder layers, this when combined with injected attention
features make it feasible to query the source contents and scale edited
concepts along with the injection of unedited parts. The editing is further
controlled in fine-grained manner with mask extraction and attention fusion
strategy which cuts the edited part from source and paste it into the denoising
pipeline for editing prompt. Our framework is a low cost alternative of
one-shot tuned models for editing since it does not require training. We
demonstrated the complex concept editing with generalised image model (Stable
Diffusion v1.5) using LoRA. Adaptation is compatible with all the existing
image diffusion techniques. Extensive experimental results demonstrate the
effectiveness over existing methods in rendering high-quality and temporally
consistent videos.
- Abstract(参考訳): 大規模なテキスト画像拡散モデルは、入力画像の編集に使用するテキストプロンプトと並行して、多様な高品質な画像を生成することに成功している。
しかし、これらのモデルをビデオに適用する場合、主な課題はフレーム間の時間的一貫性と一貫性を確保することだ。
本稿では,大規模な事前学習画像拡散モデルを利用したゼロショットテキストベースの動画編集フレームワークInFusionを提案する。
本フレームワークは,編集プロンプトで言及されている多種多様な概念に対する画素レベル制御による複数概念の編集を特にサポートしている。
具体的には, u-net 残差ブロックからソースと編集プロンプトで得られた特徴の差異をデコーダ層に注入し, インジェクション機能と組み合わせることで, ソース内容の照会や編集済み概念のスケール, 未編集部品の注入が容易になる。
また、編集部をソースから切り離し、編集プロンプト用のデノイジングパイプラインにペーストするマスク抽出およびアテンションフュージョン戦略により、さらに細粒度制御される。
私たちのフレームワークは、トレーニングを必要としないため、編集用のワンショットチューニングモデルに代わる低コストなものです。
LoRAを用いた画像モデル(Stable Diffusion v1.5)による複雑な概念編集を実演した。
適応は既存の画像拡散技術と互換性がある。
大規模な実験結果は、高品質で時間的に一貫した動画をレンダリングする既存の手法に対する効果を示す。
関連論文リスト
- Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。
本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。
我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文 参考訳(メタデータ) (2023-08-18T14:39:16Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。