論文の概要: From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.04109v2
- Date: Tue, 01 Oct 2024 10:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:32:45.870229
- Title: From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models
- Title(参考訳): テキストからマスクへ:テキストから画像への拡散モデルによるエンティティの局所化
- Authors: Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang,
- Abstract要約: 本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
- 参考スコア(独自算出の注目度): 38.14123683674355
- License:
- Abstract: Diffusion models have revolted the field of text-to-image generation recently. The unique way of fusing text and image information contributes to their remarkable capability of generating highly text-related images. From another perspective, these generative models imply clues about the precise correlation between words and pixels. In this work, a simple but effective method is proposed to utilize the attention mechanism in the denoising network of text-to-image diffusion models. Without re-training nor inference-time optimization, the semantic grounding of phrases can be attained directly. We evaluate our method on Pascal VOC 2012 and Microsoft COCO 2014 under weakly-supervised semantic segmentation setting and our method achieves superior performance to prior methods. In addition, the acquired word-pixel correlation is found to be generalizable for the learned text embedding of customized generation methods, requiring only a few modifications. To validate our discovery, we introduce a new practical task called "personalized referring image segmentation" with a new dataset. Experiments in various situations demonstrate the advantages of our method compared to strong baselines on this task. In summary, our work reveals a novel way to extract the rich multi-modal knowledge hidden in diffusion models for segmentation.
- Abstract(参考訳): 拡散モデルは、最近、テキスト・ツー・イメージ・ジェネレーション(text-to-image generation)の分野に反抗している。
テキストと画像情報を融合するユニークな方法は、高いテキスト関連画像を生成するという際立った能力に寄与する。
別の観点からは、これらの生成モデルは単語と画素の正確な相関について手がかりとなる。
本研究では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を活用するために,シンプルだが効果的な手法を提案する。
再トレーニングや推論時間の最適化がなければ、フレーズのセマンティックグラウンドは直接達成できる。
提案手法はPascal VOC 2012とMicrosoft COCO 2014において,弱い教師付きセマンティックセグメンテーション設定の下で評価し,従来の手法よりも優れた性能を実現する。
さらに, 単語と画素の相関関係は, カスタマイズした生成手法を組み込んだ学習テキストに対して一般化可能であり, わずかな修正しか必要としないことがわかった。
我々の発見を検証するために,新たなデータセットを用いた「個人化参照画像セグメント化」という新しい実践的タスクを導入する。
様々な状況における実験は,本課題の強いベースラインと比較して,本手法の利点を実証している。
要約して,本研究は,セグメンテーションのための拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。