論文の概要: Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.11721v2
- Date: Thu, 05 Jun 2025 15:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.172515
- Title: Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける検出駆動オブジェクトカウント最適化
- Authors: Oz Zafar, Yuval Cohen, Lior Wolf, Idan Schwartz,
- Abstract要約: 本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
- 参考スコア(独自算出の注目度): 54.641726517633025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately controlling object count in text-to-image generation remains a key challenge. Supervised methods often fail, as training data rarely covers all count variations. Methods that manipulate the denoising process to add or remove objects can help; however, they still require labeled data, limit robustness and image quality, and rely on a slow, iterative process. Pre-trained differentiable counting models that rely on soft object density summation exist and could steer generation, but employing them presents three main challenges: (i) they are pre-trained on clean images, making them less effective during denoising steps that operate on noisy inputs; (ii) they are not robust to viewpoint changes; and (iii) optimization is computationally expensive, requiring repeated model evaluations per image. We propose a new framework that uses pre-trained object counting techniques and object detectors to guide generation. First, we optimize a counting token using an outer-loop loss computed on fully generated images. Second, we introduce a detection-driven scaling term that corrects errors caused by viewpoint and proportion shifts, among other factors, without requiring backpropagation through the detection model. Third, we show that the optimized parameters can be reused for new prompts, removing the need for repeated optimization. Our method provides efficiency through token reuse, flexibility via compatibility with various detectors, and accuracy with improved counting across diverse object categories.
- Abstract(参考訳): テキスト・画像生成におけるオブジェクトカウントの正確な制御は依然として重要な課題である。
トレーニングデータが全てのカウントのバリエーションをカバーすることは滅多にないため、監視されたメソッドは失敗することが多い。
オブジェクトの追加や削除をDenoisingプロセスを操作するメソッドは役に立つが、ラベル付きデータが必要であり、堅牢性と画質を制限し、遅い反復的なプロセスに依存している。
ソフトオブジェクト密度の和に依存する事前訓練された微分可能カウントモデルが存在し、生成を制御できるが、それらを利用することで3つの大きな課題が提示される。
一 清潔な画像で事前訓練し、うるさい入力を施す段落において、その効果を低下させる。
(二)視点変化に頑丈でないこと、及び
(iii)最適化は計算コストが高く,画像毎に繰り返しモデル評価を行う必要がある。
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第2に、検出モデルによるバックプロパゲーションを必要とせず、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
第3に、最適化されたパラメータを新しいプロンプトに再利用できることを示し、繰り返し最適化する必要がなくなる。
本手法は,トークンの再利用,各種検出器との互換性による柔軟性,および多種多様な対象カテゴリ間のカウントの改善による精度向上を実現する。
関連論文リスト
- QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain [40.661699970360736]
生成テキスト・画像モデルを用いてオブジェクトの数を定量化する問題に取り組む。
新しい画像領域ごとにそのようなモデルをトレーニングするのではなく、ドメインに依存しない視点からこの問題を最初に検討する。
テキスト・ツー・イメージ・モデルの最適化フレームワークであるQUOTAを提案する。
論文 参考訳(メタデータ) (2024-11-29T08:20:12Z) - Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [2.6212127510234797]
テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Dynamic Proposals for Efficient Object Detection [48.66093789652899]
本稿では,オブジェクト検出のための動的提案を生成することによって,異なる計算資源に適応する簡易かつ効果的な手法を提案する。
提案手法は,2段階モデルと問合せモデルを含む広範囲な検出モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。