論文の概要: Scale Where It Matters: Training-Free Localized Scaling for Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.19917v1
- Date: Tue, 25 Nov 2025 04:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.274439
- Title: Scale Where It Matters: Training-Free Localized Scaling for Diffusion Models
- Title(参考訳): 意味のあるスケール: 拡散モデルのためのトレーニング不要のローカライズドスケーリング
- Authors: Qin Ren, Yufei Wang, Lanqing Guo, Wen Zhang, Zhiwen Fan, Chenyu You,
- Abstract要約: テストタイムスケーリング(TTS)は、推論中により多くの計算を割り当てることで、品質を改善する。
既存のTSメソッドはフルイメージレベルで動作し、画像の品質が空間的に不均一であることが多いという事実を見越す。
高品質な領域を保存しながら、欠陥領域を適応的に再サンプリングする新しい方向であるローカライズTTSを提案する。
LoTTSは、ローカライズされたTSのための、最初の完全なトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 39.63133824894266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have become the dominant paradigm in text-to-image generation, and test-time scaling (TTS) further improves quality by allocating more computation during inference. However, existing TTS methods operate at the full-image level, overlooking the fact that image quality is often spatially heterogeneous. This leads to unnecessary computation on already satisfactory regions and insufficient correction of localized defects. In this paper, we explore a new direction - Localized TTS - that adaptively resamples defective regions while preserving high-quality regions, thereby substantially reducing the search space. This paradigm poses two central challenges: accurately localizing defects and maintaining global consistency. We propose LoTTS, the first fully training-free framework for localized TTS. For defect localization, LoTTS contrasts cross- and self-attention signals under quality-aware prompts (e.g., high-quality vs. low-quality) to identify defective regions, and then refines them into coherent masks. For consistency, LoTTS perturbs only defective regions and denoises them locally, ensuring that corrections remain confined while the rest of the image remains undisturbed. Extensive experiments on SD2.1, SDXL, and FLUX demonstrate that LoTTS achieves state-of-the-art performance: it consistently improves both local quality and global fidelity, while reducing GPU cost by 2-4x compared to Best-of-N sampling. These findings establish localized TTS as a promising new direction for scaling diffusion models at inference time.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において支配的なパラダイムとなり、テスト時間スケーリング(TTS)は推論中により多くの計算を割り当てることで品質をさらに向上する。
しかし、既存のTS法はフルイメージレベルで動作しており、画像の品質が空間的に不均一であることが多いという事実を見越している。
これにより、既に満足な領域での不要な計算と、局所的な欠陥の修正が不十分になる。
本稿では,高品質な領域を保存しながら欠陥領域を適応的に再サンプリングし,探索空間を大幅に削減する新たな方向であるローカライズTTSについて検討する。
このパラダイムは、欠陥を正確にローカライズし、グローバルな一貫性を維持するという、2つの中心的な課題を提起する。
ローカライズ TTS のための,初の完全トレーニングフリーフレームワーク LoTTS を提案する。
欠陥ローカライゼーションにおいて、LOTSは、品質認識のプロンプト(例えば、高品質対低品質)の下でのクロスアテンション信号と自己アテンション信号とを対比し、欠陥領域を特定し、それらを一貫性のあるマスクに洗練する。
一貫性のために、 LoTTS の摂動は欠陥のある領域のみに留まり、局所的に変色し、残りの画像が乱れていない間に補正が制限され続けることを保証している。
SD2.1、SDXL、FLUXの大規模な実験は、LoTTSが最先端のパフォーマンスを実現していることを示している。
これらの結果から,TTSの局所化は,推論時に拡散モデルをスケールする上で有望な新しい方向であることがわかった。
関連論文リスト
- Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - DArFace: Deformation Aware Robustness for Low Quality Face Recognition [1.6369790794838284]
顔認識システムは、低品質の顔画像を含む現実のシナリオにおいて劣化することが多い。
textbfDArFaceは、高品質と低品質のトレーニングサンプルをペアで必要とせずに、このような劣化に対する堅牢性を高めるフレームワークである。
本手法は, 訓練中の大域変換(回転, 変換など)と局所弾性変形の両方を逆向きに統合し, 現実的な低品質条件をシミュレートする。
論文 参考訳(メタデータ) (2025-05-13T10:35:57Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Exploring the Relationship between Samples and Masks for Robust Defect
Localization [1.90365714903665]
本稿では,モデルプロセスなしで欠陥パターンを直接検出する一段階フレームワークを提案する。
欠陥の位置を示す可能性のある明示的な情報は、直接マッピングを学ぶことを避けるために意図的に除外される。
その結果,提案手法はF1-ScoreのSOTA法よりも2.9%高い値を示した。
論文 参考訳(メタデータ) (2023-06-19T06:41:19Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。