Fugu-MT 論文翻訳(概要): Diffusion Probe: Generated Image Result Prediction Using CNN Probes

論文の概要: Diffusion Probe: Generated Image Result Prediction Using CNN Probes

arxiv url: http://arxiv.org/abs/2602.23783v2
Date: Thu, 05 Mar 2026 02:16:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 15:25:24.055717
Title: Diffusion Probe: Generated Image Result Prediction Using CNN Probes
Title（参考訳）: 拡散プローブ:CNNプローブを用いた画像結果予測
Authors: Benlei Cui, Bukun Huang, Zhizeng Ye, Xuemei Dong, Tuo Chen, Hui Xue, Dingkang Yang, Longtao Huang, Jingqun Tang, Haiwen Hong,
Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルには、早期品質評価のための効率的なメカニズムが欠けている。 Diffusion Probeは、内部横断マップを予測信号として利用するフレームワークである。拡散プローブはモデルに依存しない、効率的で、広く適用でき、T2I生成効率を改善するための実用的なソリューションを提供する。
参考スコア（独自算出の注目度）: 33.97515945308048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) diffusion models lack an efficient mechanism for early quality assessment, leading to costly trial-and-error in multi-generation scenarios such as prompt iteration, agent-based generation, and flow-grpo. We reveal a strong correlation between early diffusion cross-attention distributions and final image quality. Based on this finding, we introduce Diffusion Probe, a framework that leverages internal cross-attention maps as predictive signals. We design a lightweight predictor that maps statistical properties of early-stage cross-attention extracted from initial denoising steps to the final image's overall quality. This enables accurate forecasting of image quality across diverse evaluation metrics long before full synthesis is complete. We validate Diffusion Probe across a wide range of settings. On multiple T2I models, across early denoising windows, resolutions, and quality metrics, it achieves strong correlation (PCC > 0.7) and high classification performance (AUC-ROC > 0.9). Its reliability translates into practical gains. By enabling early quality-aware decisions in workflows such as prompt optimization, seed selection, and accelerated RL training, the probe supports more targeted sampling and avoids computation on low-potential generations. This reduces computational overhead while improving final output quality.Diffusion Probe is model-agnostic, efficient, and broadly applicable, offering a practical solution for improving T2I generation efficiency through early quality prediction.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデルには、早期品質評価のための効率的なメカニズムが欠如しており、プロンプト・イテレーション、エージェント・ベース・ジェネレーション、フロー・グルーポといった多世代シナリオにおいて、コストがかかる試行錯誤が発生する。初期拡散対向分布と最終画質との間には強い相関関係が認められた。この発見に基づいて、内部横断マップを予測信号として活用するフレームワークであるDiffusion Probeを紹介する。我々は,初期認知段階から抽出した初期横断姿勢の統計特性を最終画像の全体的な品質にマッピングする軽量な予測器を設計する。これにより、完全な合成が完了するずっと前に、様々な評価指標にわたる画像品質の正確な予測が可能になる。拡散プローブは幅広い設定で検証する。複数のT2Iモデルでは、初期のデノイングウインドウ、解像度、および品質のメトリクスを通して、強い相関(PCC > 0.7)と高い分類性能(AUC-ROC > 0.9)を達成する。その信頼性は実際的な利益に変換される。迅速な最適化、シード選択、加速RLトレーニングなどのワークフローにおける早期品質判断を可能にすることにより、プローブはよりターゲットを絞ったサンプリングをサポートし、低ポテンシャル世代での計算を回避できる。これにより、最終的な出力品質を改善しながら計算オーバーヘッドを低減し、Diffusion Probeはモデルに依存しず、効率的で、広く適用でき、早期品質予測を通じてT2I生成効率を改善するための実用的なソリューションを提供する。

関連論文リスト

Toward Early Quality Assessment of Text-to-Image Diffusion Models [23.306273801765297]
最近のテキスト・ツー・イメージ(T2I)拡散モデルとフローマッチングモデルは、自然言語のプロンプトから非常にリアルな画像を生成することができる。 Probe-Selectは、生成プロセス内の画像品質の効率的な評価を可能にするプラグインモジュールである。
論文参考訳（メタデータ） (2026-03-03T10:25:46Z)
Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。 CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文参考訳（メタデータ） (2025-05-29T11:08:24Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文参考訳（メタデータ） (2025-03-24T17:59:02Z)
DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文参考訳（メタデータ） (2025-01-21T18:56:41Z)
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection [87.22082662250999]
拡散過程の開始時に不正確な世代を迅速に検出する新しいパラダイムであるHEaD(Hallucination Early Detection)を導入する。 HEaDは計算資源を節約し,生成過程を高速化して完全な画像を得ることを示す。その結果,HEaDは2つのオブジェクトのシナリオで生成時間の最大12%を節約できることがわかった。
論文参考訳（メタデータ） (2024-09-16T18:00:00Z)
Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文参考訳（メタデータ） (2024-03-25T15:58:26Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。具体的には,各生成段階における測定値と一致したサンプルを選択する。選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文参考訳（メタデータ） (2024-02-25T04:24:28Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。