論文の概要: LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps
- arxiv url: http://arxiv.org/abs/2501.14046v1
- Date: Thu, 23 Jan 2025 19:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:02.302858
- Title: LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps
- Title(参考訳): 拡散U-Netクロスアテンションマップを用いたLCM誘導型インスタンスレベルの画像マニピュレーション
- Authors: Andrey Palaev, Adil Khan, Syed M. Ahsan Kazmi,
- Abstract要約: 本稿では,大規模言語モデル,オープンボキャブラリ検出器,クロスアテンションマップ,インスタンスレベルの画像操作のための拡散U-Netを活用するパイプラインを提案する。
提案手法は,プロンプトに記述されたオブジェクトと生成画像に存在するオブジェクトを検知し,広範囲なトレーニングや入力マスクを使わずに正確な操作を可能にする。
- 参考スコア(独自算出の注目度): 5.836227628651603
- License:
- Abstract: The advancement of text-to-image synthesis has introduced powerful generative models capable of creating realistic images from textual prompts. However, precise control over image attributes remains challenging, especially at the instance level. While existing methods offer some control through fine-tuning or auxiliary information, they often face limitations in flexibility and accuracy. To address these challenges, we propose a pipeline leveraging Large Language Models (LLMs), open-vocabulary detectors, cross-attention maps and intermediate activations of diffusion U-Net for instance-level image manipulation. Our method detects objects mentioned in the prompt and present in the generated image, enabling precise manipulation without extensive training or input masks. By incorporating cross-attention maps, our approach ensures coherence in manipulated images while controlling object positions. Our method enables precise manipulations at the instance level without fine-tuning or auxiliary information such as masks or bounding boxes. Code is available at https://github.com/Palandr123/DiffusionU-NetLLM
- Abstract(参考訳): テキスト・ツー・イメージ合成の進歩は、テキスト・プロンプトからリアルな画像を生成できる強力な生成モデルを導入してきた。
しかし、画像属性の正確な制御は、特にインスタンスレベルでは難しいままである。
既存の手法は微調整や補助的な情報を通じてある程度の制御を提供するが、柔軟性と精度の限界に直面していることが多い。
これらの課題に対処するために,Large Language Models (LLM) ,オープン語彙検出,クロスアテンションマップ,およびインスタンスレベルの画像操作のための拡散U-Netの中間活性化を利用したパイプラインを提案する。
提案手法は,プロンプトに記述されたオブジェクトと生成画像に存在するオブジェクトを検知し,広範囲なトレーニングや入力マスクを使わずに正確な操作を可能にする。
クロスアテンションマップを組み込むことにより、対象位置を制御しながら、操作された画像のコヒーレンスを確保する。
本手法は,マスクやバウンディングボックスなどの微調整や補助的な情報なしに,インスタンスレベルでの正確な操作を可能にする。
コードはhttps://github.com/Palandr123/DiffusionU-NetLLMで公開されている。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions [66.82547612097194]
そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
論文 参考訳(メタデータ) (2020-08-04T14:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。