論文の概要: Shape-Guided Diffusion with Inside-Outside Attention
- arxiv url: http://arxiv.org/abs/2212.00210v1
- Date: Thu, 1 Dec 2022 01:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:44:41.870916
- Title: Shape-Guided Diffusion with Inside-Outside Attention
- Title(参考訳): 内部注意を伴う形状誘導拡散
- Authors: Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu,
Maka Karalashvili, Anna Rohrbach, Trevor Darrell
- Abstract要約: シェープはキーオブジェクトの制約を指定することができるが、既存のテキストと画像の拡散モデルは、このキューを無視し、間違ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたオブジェクトを合成する。
そこで,本研究では,新たな内部注意機構を用いて,交差注意(および自己注意)マップを制約する学習不要な形状誘導拡散法を提案する。
我々は、MS-COCOに基づく新しいShapePromptsベンチマークをキュレートし、定量的メトリクスと人間の嗜好の両方に応じて、形状忠実度、テキストアライメント、リアリズムのSOTA結果を達成する。
- 参考スコア(独自算出の注目度): 77.21515137082923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shape can specify key object constraints, yet existing text-to-image
diffusion models ignore this cue and synthesize objects that are incorrectly
scaled, cut off, or replaced with background content. We propose a
training-free method, Shape-Guided Diffusion, which uses a novel Inside-Outside
Attention mechanism to constrain the cross-attention (and self-attention) maps
such that prompt tokens (and pixels) referring to the inside of the shape
cannot attend outside the shape, and vice versa. To demonstrate the efficacy of
our method, we propose a new image editing task where the model must replace an
object specified by its mask and a text prompt. We curate a new ShapePrompts
benchmark based on MS-COCO and achieve SOTA results in shape faithfulness, text
alignment, and realism according to both quantitative metrics and human
preferences. Our data and code will be made available at
https://shape-guided-diffusion.github.io.
- Abstract(参考訳): シェープはキーオブジェクトの制約を指定することができるが、既存のテキストと画像の拡散モデルはこのキューを無視し、間違ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたオブジェクトを合成する。
そこで本研究では,新しい内面注意機構を用いて,形状の内側を参照する切手(および画素)が形状の外側に収まらないような相互接触(および自己注意)マップを拘束する,トレーニングフリーな形状誘導拡散法を提案する。
提案手法の有効性を示すために,マスクとテキストプロンプトで指定されたオブジェクトをモデルが置き換えなければならない新しい画像編集タスクを提案する。
我々は、MS-COCOに基づく新しいShapePromptsベンチマークをキュレートし、定量的メトリクスと人間の嗜好の両方に応じて、形状忠実度、テキストアライメント、リアリズムのSOTA結果を達成する。
私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。
関連論文リスト
- MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model [11.699591936909325]
MFTF(Msk-free Training-free Object-Level Layout Control Diffusion Model)
MFTFは、追加のマスクや画像を必要とすることなく、オブジェクトの位置を正確に制御する。
論文 参考訳(メタデータ) (2024-12-02T08:56:13Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Intuitive Shape Editing in Latent Space [9.034665429931406]
本稿では,潜伏部分空間をアンタングル化することで,潜伏空間における直感的な形状編集を可能にするオートエンコーダに基づく手法を提案する。
我々は,この手法を最先端のデータ駆動型形状編集法と比較することで評価する。
論文 参考訳(メタデータ) (2021-11-24T13:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。