論文の概要: Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2303.11306v2
- Date: Sun, 13 Aug 2023 03:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 22:07:34.828446
- Title: Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models
- Title(参考訳): テキスト・画像拡散モデルによる物体レベルの形状変化の局在化
- Authors: Or Patashnik, Daniel Garibi, Idan Azuri, Hadar Averbuch-Elor, Daniel
Cohen-Or
- Abstract要約: 本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 60.422435066544814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models give rise to workflows which often begin with an
exploration step, where users sift through a large collection of generated
images. The global nature of the text-to-image generation process prevents
users from narrowing their exploration to a particular object in the image. In
this paper, we present a technique to generate a collection of images that
depicts variations in the shape of a specific object, enabling an object-level
shape exploration process. Creating plausible variations is challenging as it
requires control over the shape of the generated object while respecting its
semantics. A particular challenge when generating object variations is
accurately localizing the manipulation applied over the object's shape. We
introduce a prompt-mixing technique that switches between prompts along the
denoising process to attain a variety of shape choices. To localize the
image-space operation, we present two techniques that use the self-attention
layers in conjunction with the cross-attention layers. Moreover, we show that
these localization techniques are general and effective beyond the scope of
generating object variations. Extensive results and comparisons demonstrate the
effectiveness of our method in generating object variations, and the competence
of our localization techniques.
- Abstract(参考訳): テキスト・ツー・イメージのモデルは、しばしば探索ステップから始まるワークフローを生み出し、ユーザーは生成された画像の大規模なコレクションをシャットダウンする。
テキスト・画像生成プロセスのグローバルな性質は、ユーザーが画像内の特定のオブジェクトへの探索を狭めるのを防ぐ。
本稿では,特定の物体の形状のバリエーションを表現した画像の集合を生成し,物体レベルの形状探索を可能にする手法を提案する。
生成したオブジェクトの形状をそのセマンティクスを尊重しながら制御する必要があるため、妥当なバリエーションの作成は困難である。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
我々は,様々な形状の選択を達成するために,ディノジングプロセスに沿ってプロンプトを切り替えるプロンプト混合手法を提案する。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
さらに,これらのローカライズ手法は,オブジェクトの変動を生成する範囲を超え,汎用的かつ効果的であることを示す。
実験結果と比較結果から,物体の変動生成における本手法の有効性と局所化手法の能力が示された。
関連論文リスト
- SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Salient Object-Aware Background Generation using Text-Guided Diffusion Models [4.747826159446815]
本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力処理にインペイント拡散モデルを適用するモデルを提案する。
提案手法は,複数のデータセットにまたがる標準的な視覚的メトリクスの劣化を伴わずに,オブジェクトの展開を平均3.6倍に削減する。
論文 参考訳(メタデータ) (2024-04-15T22:13:35Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。