論文の概要: CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion
- arxiv url: http://arxiv.org/abs/2505.04347v1
- Date: Wed, 07 May 2025 11:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.06301
- Title: CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion
- Title(参考訳): CountDiffusion: 学習不要な計数誘導拡散を用いたテキスト・画像合成
- Authors: Yanyu Li, Pencheng Wan, Liang Han, Yaowei Wang, Liqiang Nie, Min Zhang,
- Abstract要約: テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
- 参考スコア(独自算出の注目度): 82.82885671486795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable Diffusion has advanced text-to-image synthesis, but training models to generate images with accurate object quantity is still difficult due to the high computational cost and the challenge of teaching models the abstract concept of quantity. In this paper, we propose CountDiffusion, a training-free framework aiming at generating images with correct object quantity from textual descriptions. CountDiffusion consists of two stages. In the first stage, an intermediate denoising result is generated by the diffusion model to predict the final synthesized image with one-step denoising, and a counting model is used to count the number of objects in this image. In the second stage, a correction module is used to correct the object quantity by changing the attention map of the object with universal guidance. The proposed CountDiffusion can be plugged into any diffusion-based text-to-image (T2I) generation models without further training. Experiment results demonstrate the superiority of our proposed CountDiffusion, which improves the accurate object quantity generation ability of T2I models by a large margin.
- Abstract(参考訳): 安定拡散は高度なテキストと画像の合成を行うが、高い計算コストと抽象的な量の概念をモデルに教えることの難しさから、正確な対象量を持つ画像を生成するための訓練モデルは依然として困難である。
本稿では,テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニングフリーフレームワークであるCountDiffusionを提案する。
逆拡散は2つの段階からなる。
第1段階では、拡散モデルにより中間復調結果を生成し、最終合成画像を1ステップ復調して予測し、この画像中の被写体数をカウントするカウントモデルを用いる。
第2段階では、オブジェクトの注意マップをユニバーサルガイダンスで変更することにより、オブジェクト量を補正するために修正モジュールを使用する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
実験の結果,提案手法はT2Iモデルの正確なオブジェクト量生成能力を大きなマージンで向上させる。
関連論文リスト
- D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [16.76098645308941]
テキストから画像への拡散モデルは、与えられた入力プロンプトに対して高忠実度コンテンツを作成するのに苦労することがある。
入力プロンプトに基づいて正しい対象数を正確に生成できるように拡散モデルを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。