論文の概要: Demystifying Numerosity in Diffusion Models -- Limitations and Remedies
- arxiv url: http://arxiv.org/abs/2510.11117v1
- Date: Mon, 13 Oct 2025 08:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.257827
- Title: Demystifying Numerosity in Diffusion Models -- Limitations and Remedies
- Title(参考訳): 拡散モデルにおける減数化 -限界と改善-
- Authors: Yaqi Zhao, Xiaochen Wang, Li Dong, Wentao Zhang, Yuhui Yuan,
- Abstract要約: Numerosityは、FLUXやGPT-4oのような最先端のテキスト・画像生成モデルの課題であり続けている。
拡散モデルは本質的に、データセットとモデルサイズをスケールアップすることで、テキストプロンプトによって指定されたオブジェクトの正しい数を生成することができるのか?
我々は,2つの補完的なデータセットからなるクリーンな合成数奇性ベンチマークを構築した: 制御されたスケーリング研究のためのGrayCount250と,複雑な自然主義的なシーンを特徴とするNaturalCount6である。
- 参考スコア(独自算出の注目度): 29.067276405073283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerosity remains a challenge for state-of-the-art text-to-image generation models like FLUX and GPT-4o, which often fail to accurately follow counting instructions in text prompts. In this paper, we aim to study a fundamental yet often overlooked question: Can diffusion models inherently generate the correct number of objects specified by a textual prompt simply by scaling up the dataset and model size? To enable rigorous and reproducible evaluation, we construct a clean synthetic numerosity benchmark comprising two complementary datasets: GrayCount250 for controlled scaling studies, and NaturalCount6 featuring complex naturalistic scenes. Second, we empirically show that the scaling hypothesis does not hold: larger models and datasets alone fail to improve counting accuracy on our benchmark. Our analysis identifies a key reason: diffusion models tend to rely heavily on the noise initialization rather than the explicit numerosity specified in the prompt. We observe that noise priors exhibit biases toward specific object counts. In addition, we propose an effective strategy for controlling numerosity by injecting count-aware layout information into the noise prior. Our method achieves significant gains, improving accuracy on GrayCount250 from 20.0\% to 85.3\% and on NaturalCount6 from 74.8\% to 86.3\%, demonstrating effective generalization across settings.
- Abstract(参考訳): Numerosityは、FLUXやGPT-4oのような最先端のテキスト・ツー・イメージ生成モデルでは依然として課題であり、テキストプロンプトのカウントインストラクションを正確に追跡できないことが多い。
拡散モデルは、データセットとモデルサイズを単純にスケールアップすることで、テキストプロンプトによって指定されたオブジェクトの正しい個数を本質的に生成できるのか?
厳密で再現可能な評価を可能にするために,2つの相補的なデータセットからなるクリーンな合成数奇性ベンチマークを構築した。
第二に、スケーリング仮説が成立しないことを実証的に示す: より大きなモデルとデータセットだけでは、ベンチマークのカウント精度を向上できない。
拡散モデルは、プロンプトで指定された明示的な特異性よりも、ノイズ初期化に大きく依存する傾向にある。
我々はノイズ先行が特定の対象数に対するバイアスを示すのを観察する。
さらに,ノイズにカウントアウェアなレイアウト情報を注入することで,数値性を制御する効果的な手法を提案する。
提案手法は,GrayCount250の精度を20.0\%から85.3\%に,NaturalCount6の74.8\%から86.3\%に向上させ,設定全体の効果的な一般化を実証する。
関連論文リスト
- Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion [82.82885671486795]
テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
論文 参考訳(メタデータ) (2025-05-07T11:47:35Z) - Simple and Critical Iterative Denoising: A Recasting of Discrete Diffusion in Graph Generation [0.0]
中間ノイズ状態間の依存関係は、逆ノイズ化プロセス中にエラーの蓄積と伝播を引き起こす。
本稿では, 離散拡散を単純化し, 問題を回避し, 簡易反復分解という新しい枠組みを提案する。
実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-27T15:08:58Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - Unique Rashomon Sets for Robust Active Learning [0.0]
Unique Rashomon Ensembled Active Learning (UNREAL)を紹介する。
UNREALは、ほぼ最適なモデルの集合である羅生門集合からモデルを選択的にアンサンブルする。
我々はUNREALが従来のアクティブラーニング手法よりも高速な理論収束率を実現することを示す。
論文 参考訳(メタデータ) (2025-03-09T20:50:34Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。
我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Towards Pattern-aware Data Augmentation for Temporal Knowledge Graph Completion [18.51546761241817]
本稿では、時間的知識グラフのための最初のデータ拡張戦略であるBoosterを紹介する。
本稿では,TKG内の三進的閉包に基づく階層的スコアリングアルゴリズムを提案する。
また、モデルが好むパターンから逸脱するサンプルを特定するための2段階のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-31T03:47:19Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。