論文の概要: Detector Guidance for Multi-Object Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2306.02236v1
- Date: Sun, 4 Jun 2023 02:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:16:41.224355
- Title: Detector Guidance for Multi-Object Text-to-Image Generation
- Title(参考訳): マルチオブジェクトテキスト対画像生成のための検出器ガイダンス
- Authors: Luping Liu and Zijian Zhang and Yi Ren and Rongjie Huang and Xiang Yin
and Zhou Zhao
- Abstract要約: Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
- 参考スコア(独自算出の注目度): 61.70018793720616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated impressive performance in text-to-image
generation. They utilize a text encoder and cross-attention blocks to infuse
textual information into images at a pixel level. However, their capability to
generate images with text containing multiple objects is still restricted.
Previous works identify the problem of information mixing in the CLIP text
encoder and introduce the T5 text encoder or incorporate strong prior knowledge
to assist with the alignment. We find that mixing problems also occur on the
image side and in the cross-attention blocks. The noisy images can cause
different objects to appear similar, and the cross-attention blocks inject
information at a pixel level, leading to leakage of global object understanding
and resulting in object mixing. In this paper, we introduce Detector Guidance
(DG), which integrates a latent object detection model to separate different
objects during the generation process. DG first performs latent object
detection on cross-attention maps (CAMs) to obtain object information. Based on
this information, DG then masks conflicting prompts and enhances related
prompts by manipulating the following CAMs. We evaluate the effectiveness of DG
using Stable Diffusion on COCO, CC, and a novel multi-related object benchmark,
MRO. Human evaluations demonstrate that DG provides an 8-22\% advantage in
preventing the amalgamation of conflicting concepts and ensuring that each
object possesses its unique region without any human involvement and additional
iterations. Our implementation is available at
\url{https://github.com/luping-liu/Detector-Guidance}.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な性能を示した。
テキストエンコーダとクロスアテンションブロックを使用して、テキスト情報をピクセルレベルで画像に注入する。
しかし、複数のオブジェクトを含むテキストで画像を生成する能力はまだ制限されている。
以前の研究は、CLIPテキストエンコーダにおける情報混合の問題を特定し、T5テキストエンコーダを導入するか、アライメントを支援するために強力な事前知識を組み込む。
また,画像側とクロスアテンションブロックで混合問題が発生することがわかった。
ノイズの多い画像は異なるオブジェクトを同一視し、クロスアテンションブロックはピクセルレベルで情報を注入し、グローバルなオブジェクト理解の漏洩とオブジェクト混合を引き起こす。
本稿では,遅延オブジェクト検出モデルを統合して,生成プロセス中に異なるオブジェクトを分離する検出誘導(DG)を提案する。
DGはまず、クロスアテンションマップ(CAM)上で潜時オブジェクト検出を行い、オブジェクト情報を取得する。
この情報に基づいて、DGは競合するプロンプトをマスクし、以下のCAMを操作することで関連するプロンプトを強化する。
我々は,COCO,CC,および新しいマルチ関連オブジェクトベンチマークであるMROに対する安定拡散を用いたDGの有効性を評価する。
人間の評価は、DGが対立する概念の融合を防ぎ、各オブジェクトが人間の関与や追加の反復なしに独自の領域を持っていることを確実にする8-22\%の利点を提供することを示した。
我々の実装は \url{https://github.com/luping-liu/Detector-Guidance} で利用可能です。
関連論文リスト
- ObjFormer: Learning Land-Cover Changes From Paired OSM Data and Optical High-Resolution Imagery via Object-Guided Transformer [31.46969412692045]
本稿では,ペアOSMデータと光学画像を用いた土地被覆変化の直接検出の先駆者となる。
本稿では、オブジェクトベース画像解析(OBIA)技術と高度な視覚変換器アーキテクチャを自然に組み合わせたオブジェクト誘導変換器(Former)を提案する。
OpenMapCDと呼ばれる大規模なベンチマークデータセットは、詳細な実験を行うために構築されている。
論文 参考訳(メタデータ) (2023-10-04T09:26:44Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - Context-Aware Transfer Attacks for Object Detection [51.65308857232767]
本稿では,オブジェクト検出のためのコンテキスト認識攻撃を新たに生成する手法を提案する。
オブジェクトとその相対的な位置と大きさの共起をコンテキスト情報として利用することにより、ターゲットの誤分類攻撃をうまく生成できることを示す。
論文 参考訳(メタデータ) (2021-12-06T18:26:39Z) - Saliency Detection via Global Context Enhanced Feature Fusion and Edge
Weighted Loss [6.112591965159383]
本研究では,コンテキスト融合デコーダネットワーク(CFDN)と近縁重み付き損失(NEWLoss)関数を提案する。
CFDNは、グローバルコンテキスト情報を統合し、不要な空間情報の影響を抑えることにより、正確な唾液マップを作成する。
NewLossは、オブジェクト境界上の重み写像を生成することによって、追加モジュールなしで曖昧な境界の学習を加速する。
論文 参考訳(メタデータ) (2021-10-13T08:04:55Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。