論文の概要: Shape-Guided Diffusion with Inside-Outside Attention
- arxiv url: http://arxiv.org/abs/2212.00210v2
- Date: Wed, 22 Mar 2023 08:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:30:54.477233
- Title: Shape-Guided Diffusion with Inside-Outside Attention
- Title(参考訳): 内部注意を伴う形状誘導拡散
- Authors: Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu,
Maka Karalashvili, Anna Rohrbach, Trevor Darrell
- Abstract要約: 形状誘導拡散(Shape-Guided Diffusion)は、ユーザが指定した形状の入力に敏感であるか、あるいはテキストから自動的に推測されるように、事前訓練された拡散モデルを変更する。
我々のメカニズムは、どの空間領域がオブジェクト(内側)か、背景(外側)かを指定し、テキストプロンプトによって指定された編集を正しい領域に関連付ける。
- 参考スコア(独自算出の注目度): 77.21515137082923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When manipulating an object, existing text-to-image diffusion models often
ignore the shape of the object and generate content that is incorrectly scaled,
cut off, or replaced with background content. We propose a training-free
method, Shape-Guided Diffusion, that modifies pretrained diffusion models to be
sensitive to shape input specified by a user or automatically inferred from
text. We use a novel Inside-Outside Attention mechanism during the inversion
and generation process to apply this shape constraint to the cross- and
self-attention maps. Our mechanism designates which spatial region is the
object (inside) vs. background (outside) then associates edits specified by
text prompts to the correct region. We demonstrate the efficacy of our method
on the shape-guided editing task, where the model must replace an object
according to a text prompt and object mask. We curate a new ShapePrompts
benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness
without a degradation in text alignment or image realism according to both
automatic metrics and annotator ratings. Our data and code will be made
available at https://shape-guided-diffusion.github.io.
- Abstract(参考訳): オブジェクトを操作する場合、既存のテキストと画像の拡散モデルは、しばしばオブジェクトの形状を無視し、誤ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたコンテンツを生成する。
本稿では,ユーザが入力した形状に敏感になるように,あるいはテキストから自動的に推定する,トレーニングフリーな形状誘導拡散法を提案する。
我々は、反転・生成過程において、新しい内部注意機構を用いて、この形状制約を交差及び自己注意マップに適用する。
このメカニズムは、対象(内側)と背景(外側)がどの空間領域であるかを定義し、テキストプロンプトで指定された編集を正しい領域に関連付ける。
本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。
我々は,ms-coco から派生した新しい shapeprompts ベンチマークをキュレートし,テキストアライメントや画像リアリズムの劣化を伴わずに sota 結果の形状忠実性を達成する。
私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ShapeFusion: A 3D diffusion model for localized shape editing [37.82690898932135]
本研究では,任意の形状領域の局所的な操作を容易にする効果的な拡散マスキングトレーニング戦略を提案する。
現在の最先端技術と比較して、我々の手法は遅延コード状態に依存する方法よりも解釈可能な形状操作をもたらす。
論文 参考訳(メタデータ) (2024-03-28T18:50:19Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Intuitive Shape Editing in Latent Space [9.034665429931406]
本稿では,潜伏部分空間をアンタングル化することで,潜伏空間における直感的な形状編集を可能にするオートエンコーダに基づく手法を提案する。
我々は,この手法を最先端のデータ駆動型形状編集法と比較することで評価する。
論文 参考訳(メタデータ) (2021-11-24T13:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。