論文の概要: CountCluster: Training-Free Object Quantity Guidance with Cross-Attention Map Clustering for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.10710v1
- Date: Thu, 14 Aug 2025 14:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.365403
- Title: CountCluster: Training-Free Object Quantity Guidance with Cross-Attention Map Clustering for Text-to-Image Generation
- Title(参考訳): CountCluster: テキスト・画像生成のためのクロスアテンションマップクラスタリングによる学習不要なオブジェクト量誘導
- Authors: Joohyeon Lee, Jin-Seop Lee, Jee-Hyong Lee,
- Abstract要約: 拡散に基づくテキスト・画像生成モデルは、画像の品質と多様性の点で強い性能を示している。
彼らは今でも、入力プロンプトで指定されたオブジェクトの数を正確に反映した画像を生成するのに苦労している。
textitCountClusterは、入力中の指定されたオブジェクト数に応じてクラスタ化されるオブジェクトのクロスアテンションマップをガイドする手法である。
- 参考スコア(独自算出の注目度): 8.295319152986316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image generation models have demonstrated strong performance in terms of image quality and diversity. However, they still struggle to generate images that accurately reflect the number of objects specified in the input prompt. Several approaches have been proposed that rely on either external counting modules for iterative refinement or quantity representations derived from learned tokens or latent features. However, they still have limitations in accurately reflecting the specified number of objects and overlook an important structural characteristic--The number of object instances in the generated image is largely determined in the early timesteps of the denoising process. To correctly reflect the object quantity for image generation, the highly activated regions in the object cross-attention map at the early timesteps should match the input object quantity, while each region should be clearly separated. To address this issue, we propose \textit{CountCluster}, a method that guides the object cross-attention map to be clustered according to the specified object count in the input, without relying on any external tools or additional training. The proposed method partitions the object cross-attention map into $k$ clusters at inference time based on attention scores, defines an ideal distribution in which each cluster is spatially well-separated, and optimizes the latent to align with this target distribution. Our method achieves an average improvement of 18.5\%p in object count accuracy compared to existing methods, and demonstrates superior quantity control performance across a variety of prompts. Code will be released at: https://github.com/JoohyeonL22/CountCluster .
- Abstract(参考訳): 拡散に基づくテキスト・画像生成モデルは、画像の品質と多様性の点で強い性能を示している。
しかし、入力プロンプトで指定されたオブジェクトの数を正確に反映した画像を生成するのに依然として苦労している。
反復的洗練のために外部カウントモジュールを頼りにするか、学習トークンから派生した量表現や潜在特徴に依存するいくつかのアプローチが提案されている。
しかし、それらには、指定されたオブジェクトの数を正確に反映し、重要な構造的特性を見落としている制限がある。-生成された画像内のオブジェクトインスタンスの数は、デノナイジングプロセスの初期段階で大きく決定される。
画像生成用オブジェクト量を正確に反映するためには、初期におけるオブジェクトのクロスアテンションマップ内の高度に活性化された領域は、各領域を明確に分離すると同時に、入力されたオブジェクト量と一致すべきである。
この問題に対処するために、外部ツールや追加のトレーニングに頼ることなく、入力中の指定されたオブジェクト数に応じて、オブジェクトのクロスアテンションマップをクラスタ化するためのメソッドである、textit{CountCluster}を提案する。
提案手法は,オブジェクトのクロスアテンションマップをアテンションスコアに基づいて推定時に$k$のクラスタに分割し,各クラスタが空間的に適切に分離された理想的な分布を定義し,この分布と一致させるために潜時を最適化する。
提案手法は,既存手法と比較してオブジェクトカウント精度が平均18.5\%p向上し,様々なプロンプトに対して優れた量制御性能を示す。
コードは、https://github.com/JoohyeonL22/CountClusterでリリースされる。
関連論文リスト
- Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [16.76098645308941]
テキストから画像への拡散モデルは、与えられた入力プロンプトに対して高忠実度コンテンツを作成するのに苦労することがある。
入力プロンプトに基づいて正しい対象数を正確に生成できるように拡散モデルを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Single Image Object Counting and Localizing using Active-Learning [4.56877715768796]
単一画像シナリオにおける反復オブジェクトのカウントとローカライズのための新しい手法を提案する。
本手法は,少数のアクティブ・ラーニング・イテレーションにおいて,入力画像から注意深く収集したラベルの小さなセットに対してCNNを訓練する。
既存のユーザ支援カウント法と比較すると,ユーザマウスのクリック数,ランニングタイムの計測と位置決めの精度の観点から,能動的学習が最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-11-16T11:29:21Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。