論文の概要: Toward Early Quality Assessment of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.02829v1
- Date: Tue, 03 Mar 2026 10:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.748974
- Title: Toward Early Quality Assessment of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの早期品質評価に向けて
- Authors: Huanlei Guo, Hongxin Wei, Bingyi Jing,
- Abstract要約: 最近のテキスト・ツー・イメージ(T2I)拡散モデルとフローマッチングモデルは、自然言語のプロンプトから非常にリアルな画像を生成することができる。
Probe-Selectは、生成プロセス内の画像品質の効率的な評価を可能にするプラグインモジュールである。
- 参考スコア(独自算出の注目度): 23.306273801765297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) diffusion and flow-matching models can produce highly realistic images from natural language prompts. In practical scenarios, T2I systems are often run in a ``generate--then--select'' mode: many seeds are sampled and only a few images are kept for use. However, this pipeline is highly resource-intensive since each candidate requires tens to hundreds of denoising steps, and evaluation metrics such as CLIPScore and ImageReward are post-hoc. In this work, we address this inefficiency by introducing Probe-Select, a plug-in module that enables efficient evaluation of image quality within the generation process. We observe that certain intermediate denoiser activations, even at early timesteps, encode a stable coarse structure, object layout and spatial arrangement--that strongly correlates with final image fidelity. Probe-Select exploits this property by predicting final quality scores directly from early activations, allowing unpromising seeds to be terminated early. Across diffusion and flow-matching backbones, our experiments show that early evaluation at only 20\% of the trajectory accurately ranks candidate seeds and enables selective continuation. This strategy reduces sampling cost by over 60\% while improving the quality of the retained images, demonstrating that early structural signals can effectively guide selective generation without altering the underlying generative model. Code is available at https://github.com/Guhuary/ProbeSelect.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)拡散モデルとフローマッチングモデルは、自然言語のプロンプトから非常にリアルな画像を生成することができる。
実際のシナリオでは、T2Iシステムは'generate--then--select''モードで実行されることが多い。
しかしながら、このパイプラインは、各候補が数十から数百のデノベーションステップを必要とし、CLIPScoreやImageRewardなどの評価指標がポストホックであるため、リソース集約性が高い。
本稿では,生成プロセスにおける画像品質の効率的な評価を可能にするプラグインモジュールであるProbe-Selectを導入することで,この非効率性に対処する。
我々は, 初期段階においても, 安定した粗い構造, オブジェクト配置, 空間配置を符号化し, 最終像の忠実度と強く相関する中間雑音の活性化を観察する。
Probe-Selectはこの特性を利用して、初期アクティベーションから直接最終品質スコアを予測し、未成熟の種子を早期に終了させる。
本実験は, 拡散と流路整合のバックボーン全体にわたって, 軌道の20倍の早期評価が候補種子を正確にランク付けし, 選択的継続を可能にすることを示した。
この戦略は、保持画像の品質を向上しつつサンプリングコストを60%以上削減し、基礎となる生成モデルを変更することなく、初期構造信号が選択的生成を効果的に導くことを実証する。
コードはhttps://github.com/Guhuary/ProbeSelect.comで入手できる。
関連論文リスト
- Diffusion Probe: Generated Image Result Prediction Using CNN Probes [33.97515945308048]
テキスト・ツー・イメージ(T2I)拡散モデルには、早期品質評価のための効率的なメカニズムが欠けている。
Diffusion Probeは、内部横断マップを予測信号として利用するフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T08:24:47Z) - TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:14:26Z) - ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion [18.25085327318649]
ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。
我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
論文 参考訳(メタデータ) (2025-11-24T04:10:53Z) - Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Which Pixel to Annotate: a Label-Efficient Nuclei Segmentation Framework [70.18084425770091]
ディープニューラルネットワークは、H&E染色病理像の核インスタンスセグメンテーションに広く応用されている。
通常、類似したパターンと冗長なパターンを含む核画像のデータセットに全てのピクセルをラベル付けするのは非効率で不要である。
そこで本研究では,アノテートするイメージパッチを数個だけ選択し,選択したサンプルからトレーニングセットを増強し,半教師付きで核分割を実現する,新しいフル核分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-20T14:53:26Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。