論文の概要: Shape-Guided Diffusion with Inside-Outside Attention
- arxiv url: http://arxiv.org/abs/2212.00210v2
- Date: Wed, 22 Mar 2023 08:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:30:54.477233
- Title: Shape-Guided Diffusion with Inside-Outside Attention
- Title(参考訳): 内部注意を伴う形状誘導拡散
- Authors: Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu,
Maka Karalashvili, Anna Rohrbach, Trevor Darrell
- Abstract要約: 形状誘導拡散(Shape-Guided Diffusion)は、ユーザが指定した形状の入力に敏感であるか、あるいはテキストから自動的に推測されるように、事前訓練された拡散モデルを変更する。
我々のメカニズムは、どの空間領域がオブジェクト(内側)か、背景(外側)かを指定し、テキストプロンプトによって指定された編集を正しい領域に関連付ける。
- 参考スコア(独自算出の注目度): 77.21515137082923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When manipulating an object, existing text-to-image diffusion models often
ignore the shape of the object and generate content that is incorrectly scaled,
cut off, or replaced with background content. We propose a training-free
method, Shape-Guided Diffusion, that modifies pretrained diffusion models to be
sensitive to shape input specified by a user or automatically inferred from
text. We use a novel Inside-Outside Attention mechanism during the inversion
and generation process to apply this shape constraint to the cross- and
self-attention maps. Our mechanism designates which spatial region is the
object (inside) vs. background (outside) then associates edits specified by
text prompts to the correct region. We demonstrate the efficacy of our method
on the shape-guided editing task, where the model must replace an object
according to a text prompt and object mask. We curate a new ShapePrompts
benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness
without a degradation in text alignment or image realism according to both
automatic metrics and annotator ratings. Our data and code will be made
available at https://shape-guided-diffusion.github.io.
- Abstract(参考訳): オブジェクトを操作する場合、既存のテキストと画像の拡散モデルは、しばしばオブジェクトの形状を無視し、誤ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたコンテンツを生成する。
本稿では,ユーザが入力した形状に敏感になるように,あるいはテキストから自動的に推定する,トレーニングフリーな形状誘導拡散法を提案する。
我々は、反転・生成過程において、新しい内部注意機構を用いて、この形状制約を交差及び自己注意マップに適用する。
このメカニズムは、対象(内側)と背景(外側)がどの空間領域であるかを定義し、テキストプロンプトで指定された編集を正しい領域に関連付ける。
本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。
我々は,ms-coco から派生した新しい shapeprompts ベンチマークをキュレートし,テキストアライメントや画像リアリズムの劣化を伴わずに sota 結果の形状忠実性を達成する。
私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。
関連論文リスト
- DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - Intuitive Shape Editing in Latent Space [9.034665429931406]
本稿では,潜伏部分空間をアンタングル化することで,潜伏空間における直感的な形状編集を可能にするオートエンコーダに基づく手法を提案する。
我々は,この手法を最先端のデータ駆動型形状編集法と比較することで評価する。
論文 参考訳(メタデータ) (2021-11-24T13:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。