論文の概要: D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.19278v1
- Date: Wed, 22 Oct 2025 06:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.152789
- Title: D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
- Title(参考訳): D2D:テクスト・ツー・イメージ・ジェネレーションにおける減数化のためのディテクタ・トゥ・ディファレンタブル・クリティカル
- Authors: Nobline Yoo, Olga Russakovsky, Ye Zhu,
- Abstract要約: Detector-to-Differentiable (D2D)は、微分不可能な検出モデルを微分可能な批評家に変換する新しいフレームワークである。
SDXL-Turbo, SD-Turbo, Pixart-DMDを用いた実験により, オブジェクトカウント精度が一貫した, 実質的な改善が示された。
- 参考スコア(独自算出の注目度): 26.820694706602236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルはセマンティックアライメントにおいて高い性能を達成しているが、それでもプロンプトで指定されたオブジェクトの正しい数を生成することに苦戦している。
既存のアプローチは通常、数値性を高めるために外部批評家として補助カウントネットワークを組み込む。
しかし、これらの批評家は世代ごとの勾配ガイダンスを提供する必要があるため、本質的に微分可能な回帰モデルに制限されるため、カウント・アヴィジョン・列挙の性質が微分不可能な、優れたカウント能力を持つ検出器ベースのモデルを除くことができる。
この制限を克服するために、微分不可能な検出モデルを微分可能批評家に変換する新しいフレームワークであるD2Dを提案し、これにより、数値生成を誘導する優れたカウント能力を活用する。
具体的には、検出ロジットをソフトバイナリインジケータに変換するためのカスタムアクティベーション関数を設計し、事前訓練されたT2Iモデルを用いて推論時間に先立ってノイズを最適化する。
SDXL-Turbo、SD-Turbo、Pixart-DMDの4つの異なる複雑さ(低密度、高密度、マルチオブジェクトシナリオ)のベンチマークによる大規模な実験では、オブジェクトカウント精度(例えば、400のプロンプト、低密度のベンチマークであるD2D-Smallで最大13.7%向上)の一貫性と実質的な改善が示されている。
関連論文リスト
- $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection [85.9202830503973]
視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。
本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:02:27Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - Benchmarking Robustness of Deep Learning Classifiers Using Two-Factor
Perturbation [4.016928101928335]
本稿では,Deep Learning (DL) 分類器の堅牢性を評価するための基礎的な研究を付け加える。
また、最小精度、最大精度、平均精度、変動係数を含む、新しい4つの四分法統計可視化ツールを導入する。
ソースコード、関連するイメージセット、予備データはすべてGitHubのWebサイトで共有され、将来の学術研究および産業プロジェクトをサポートする。
論文 参考訳(メタデータ) (2021-03-02T02:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。