論文の概要: MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing
- arxiv url: http://arxiv.org/abs/2304.08465v1
- Date: Mon, 17 Apr 2023 17:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:03:46.809611
- Title: MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing
- Title(参考訳): masactrl: 一貫した画像合成と編集のためのチューニングフリーな相互アテンション制御
- Authors: Mingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie,
Yinqiang Zheng
- Abstract要約: MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 54.712205852602736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success in large-scale text-to-image generation and
text-conditioned image editing, existing methods still struggle to produce
consistent generation and editing results. For example, generation approaches
usually fail to synthesize multiple images of the same objects/characters but
with different views or poses. Meanwhile, existing editing methods either fail
to achieve effective complex non-rigid editing while maintaining the overall
textures and identity, or require time-consuming fine-tuning to capture the
image-specific appearance. In this paper, we develop MasaCtrl, a tuning-free
method to achieve consistent image generation and complex non-rigid image
editing simultaneously. Specifically, MasaCtrl converts existing self-attention
in diffusion models into mutual self-attention, so that it can query correlated
local contents and textures from source images for consistency. To further
alleviate the query confusion between foreground and background, we propose a
mask-guided mutual self-attention strategy, where the mask can be easily
extracted from the cross-attention maps. Extensive experiments show that the
proposed MasaCtrl can produce impressive results in both consistent image
generation and complex non-rigid real image editing.
- Abstract(参考訳): 大規模なテキスト対画像生成やテキストコンディション画像編集の成功にもかかわらず、既存の手法は一貫性のある生成と編集結果を生成するのに苦労している。
例えば、ジェネレーションアプローチは、通常同じオブジェクト/キャラクタの複数のイメージを合成できないが、ビューやポーズが異なる。
一方、既存の編集方法は、全体的なテクスチャとアイデンティティを維持しながら、効果的な複雑な非剛性編集を達成できないか、あるいは画像特有の外観を捉えるのに時間を要する。
本稿では,一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要なMathCtrlを開発する。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
さらに,前景と背景の問合せの混乱を緩和するため,クロスアテンションマップから容易にマスクを抽出できるマスクガイドによる相互アテンション戦略を提案する。
広範な実験により、masctrlは一貫性のある画像生成と複雑な非剛体的な実画像編集の両方において印象的な結果をもたらすことが示されている。
関連論文リスト
- Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image [2.999198565272416]
我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
論文 参考訳(メタデータ) (2022-10-17T23:46:05Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。