論文の概要: CountSteer: Steering Attention for Object Counting in Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.11253v1
- Date: Fri, 14 Nov 2025 12:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.604892
- Title: CountSteer: Steering Attention for Object Counting in Diffusion Models
- Title(参考訳): CountSteer: 拡散モデルにおけるオブジェクトカウントのステアリング注意
- Authors: Hyemin Boo, Hyoryung Kim, Myungjin Lee, Seunghyeon Lee, Jiyoung Lee, Jang-Hwan Choi, Hyunsoo Cho,
- Abstract要約: テキスト・ツー・イメージ拡散モデルは現実的で一貫性のある画像を生成するが、しばしばテキストの数値的な命令に従わない。
提案手法は,モデルが意図しない隠蔽状態の推論を行うことにより,特定対象数の生成を改善する訓練不要な手法であるCountSteerを導入する。
- 参考スコア(独自算出の注目度): 21.46393378362606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models generate realistic and coherent images but often fail to follow numerical instructions in text, revealing a gap between language and visual representation. Interestingly, we found that these models are not entirely blind to numbers-they are implicitly aware of their own counting accuracy, as their internal signals shift in consistent ways depending on whether the output meets the specified count. This observation suggests that the model already encodes a latent notion of numerical correctness, which can be harnessed to guide generation more precisely. Building on this intuition, we introduce CountSteer, a training-free method that improves generation of specified object counts by steering the model's cross-attention hidden states during inference. In our experiments, CountSteer improved object-count accuracy by about 4% without compromising visual quality, demonstrating a simple yet effective step toward more controllable and semantically reliable text-to-image generation.
- Abstract(参考訳): テキストと画像の拡散モデルは、現実的で一貫性のある画像を生成するが、しばしばテキストの数値的な命令に従うことができず、言語と視覚表現のギャップが明らかになる。
興味深いことに、これらのモデルは数値に完全に盲目ではない。出力が指定されたカウントに合致するかどうかによって内部信号が一貫した方法で変化するため、彼らは自分のカウント精度を暗黙的に認識している。
この観察から、このモデルは既に数値的正確性の概念を符号化しており、より正確に生成を導くことができることが示唆されている。
この直感に基づいて、推論中にモデルのクロスアテンション隠蔽状態を操り、特定対象数の生成を改善する訓練不要な方法であるCountSteerを導入する。
実験では、視覚的品質を損なうことなく、オブジェクト数精度を約4%向上させ、より制御しやすく、セマンティックに信頼できるテキスト・ツー・イメージ生成に向けた単純なステップを実証した。
関連論文リスト
- Demystifying Numerosity in Diffusion Models -- Limitations and Remedies [29.067276405073283]
Numerosityは、FLUXやGPT-4oのような最先端のテキスト・画像生成モデルの課題であり続けている。
拡散モデルは本質的に、データセットとモデルサイズをスケールアップすることで、テキストプロンプトによって指定されたオブジェクトの正しい数を生成することができるのか?
我々は,2つの補完的なデータセットからなるクリーンな合成数奇性ベンチマークを構築した: 制御されたスケーリング研究のためのGrayCount250と,複雑な自然主義的なシーンを特徴とするNaturalCount6である。
論文 参考訳(メタデータ) (2025-10-13T08:07:24Z) - CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion [82.82885671486795]
テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
論文 参考訳(メタデータ) (2025-05-07T11:47:35Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [16.76098645308941]
テキストから画像への拡散モデルは、与えられた入力プロンプトに対して高忠実度コンテンツを作成するのに苦労することがある。
入力プロンプトに基づいて正しい対象数を正確に生成できるように拡散モデルを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。