論文の概要: CountSteer: Steering Attention for Object Counting in Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.11253v1
- Date: Fri, 14 Nov 2025 12:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.604892
- Title: CountSteer: Steering Attention for Object Counting in Diffusion Models
- Title(参考訳): CountSteer: 拡散モデルにおけるオブジェクトカウントのステアリング注意
- Authors: Hyemin Boo, Hyoryung Kim, Myungjin Lee, Seunghyeon Lee, Jiyoung Lee, Jang-Hwan Choi, Hyunsoo Cho,
- Abstract要約: テキスト・ツー・イメージ拡散モデルは現実的で一貫性のある画像を生成するが、しばしばテキストの数値的な命令に従わない。
提案手法は,モデルが意図しない隠蔽状態の推論を行うことにより,特定対象数の生成を改善する訓練不要な手法であるCountSteerを導入する。
- 参考スコア(独自算出の注目度): 21.46393378362606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models generate realistic and coherent images but often fail to follow numerical instructions in text, revealing a gap between language and visual representation. Interestingly, we found that these models are not entirely blind to numbers-they are implicitly aware of their own counting accuracy, as their internal signals shift in consistent ways depending on whether the output meets the specified count. This observation suggests that the model already encodes a latent notion of numerical correctness, which can be harnessed to guide generation more precisely. Building on this intuition, we introduce CountSteer, a training-free method that improves generation of specified object counts by steering the model's cross-attention hidden states during inference. In our experiments, CountSteer improved object-count accuracy by about 4% without compromising visual quality, demonstrating a simple yet effective step toward more controllable and semantically reliable text-to-image generation.
- Abstract(参考訳): テキストと画像の拡散モデルは、現実的で一貫性のある画像を生成するが、しばしばテキストの数値的な命令に従うことができず、言語と視覚表現のギャップが明らかになる。
興味深いことに、これらのモデルは数値に完全に盲目ではない。出力が指定されたカウントに合致するかどうかによって内部信号が一貫した方法で変化するため、彼らは自分のカウント精度を暗黙的に認識している。
この観察から、このモデルは既に数値的正確性の概念を符号化しており、より正確に生成を導くことができることが示唆されている。
この直感に基づいて、推論中にモデルのクロスアテンション隠蔽状態を操り、特定対象数の生成を改善する訓練不要な方法であるCountSteerを導入する。
実験では、視覚的品質を損なうことなく、オブジェクト数精度を約4%向上させ、より制御しやすく、セマンティックに信頼できるテキスト・ツー・イメージ生成に向けた単純なステップを実証した。
関連論文リスト
- Demystifying Numerosity in Diffusion Models -- Limitations and Remedies [29.067276405073283]
Numerosityは、FLUXやGPT-4oのような最先端のテキスト・画像生成モデルの課題であり続けている。
拡散モデルは本質的に、データセットとモデルサイズをスケールアップすることで、テキストプロンプトによって指定されたオブジェクトの正しい数を生成することができるのか?
我々は,2つの補完的なデータセットからなるクリーンな合成数奇性ベンチマークを構築した: 制御されたスケーリング研究のためのGrayCount250と,複雑な自然主義的なシーンを特徴とするNaturalCount6である。
論文 参考訳(メタデータ) (2025-10-13T08:07:24Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion [82.82885671486795]
テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
論文 参考訳(メタデータ) (2025-05-07T11:47:35Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [30.004769932953952]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [16.76098645308941]
テキストから画像への拡散モデルは、与えられた入力プロンプトに対して高忠実度コンテンツを作成するのに苦労することがある。
入力プロンプトに基づいて正しい対象数を正確に生成できるように拡散モデルを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。