論文の概要: TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning
- arxiv url: http://arxiv.org/abs/2511.22242v2
- Date: Mon, 01 Dec 2025 14:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 17:41:00.183203
- Title: TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning
- Title(参考訳): TTSnap:ノイズ対応プルーニングによる拡散モデルの試験時間スケーリング
- Authors: Qingtao Yu, Changlin Song, Minghao Sun, Zhengyang Yu, Vinay Kumar Verma, Soumya Roy, Sumit Negi, Hongdong Li, Dylan Campbell,
- Abstract要約: テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
- 参考スコア(独自算出の注目度): 53.52543819839442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prominent approach to test-time scaling for text-to-image diffusion models formulates the problem as a search over multiple noise seeds, selecting the one that maximizes a certain image-reward function. The effectiveness of this strategy heavily depends on the number and diversity of noise seeds explored. However, verifying each candidate is computationally expensive, because each must be fully denoised before a reward can be computed. This severely limits the number of samples that can be explored under a fixed budget. We propose test-time scaling with noise-aware pruning (TTSnap), a framework that prunes low-quality candidates without fully denoising them. The key challenge is that reward models are learned in the clean image domain, and the ranking of rewards predicted for intermediate estimates are often inconsistent with those predicted for clean images. To overcome this, we train noise-aware reward models via self-distillation to align the reward for intermediate estimates with that of the final clean images. To stabilize learning across different noise levels, we adopt a curriculum training strategy that progressively shifts the data domain from clean images to noise images. In addition, we introduce a new metric that measures reward alignment and computational budget utilization. Experiments demonstrate that our approach improves performance by over 16\% compared with existing methods, enabling more efficient and effective test-time scaling. It also provides orthogonal gains when combined with post-training techniques and local test-time optimization. Code: https://github.com/TerrysLearning/TTSnap/.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、問題を複数のノイズシードの探索として定式化し、あるイメージ・リワード関数を最大化するものを選択する。
この戦略の有効性は、探索された騒音種子の数と多様性に大きく依存する。
しかしながら、各候補の検証には計算コストがかかる。
これにより、固定予算の下で探索できるサンプルの数が大幅に制限される。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
重要な課題は、報酬モデルがクリーンイメージ領域で学習され、中間推定で予測される報酬のランキングはクリーンイメージで予測されるものと矛盾することが多いことである。
これを解決するために、ノイズ認識型報酬モデルを自己蒸留により訓練し、中間推定値と最終クリーン画像との報酬を整合させる。
異なるノイズレベルの学習を安定させるために、クリーンな画像からノイズ画像へデータ領域を段階的にシフトするカリキュラムトレーニング戦略を採用する。
また,報酬のアライメントと計算予算の活用を計測する新たな指標を導入する。
実験の結果,既存の手法に比べて16倍以上の性能向上を実現し,より効率的かつ効率的なテストタイムスケーリングを実現した。
また、トレーニング後のテクニックとローカルテストタイム最適化を組み合わせることで、直交的なゲインも提供する。
コード:https://github.com/TerrysLearning/TTSnap/。
関連論文リスト
- Test-Time Scaling of Diffusion Models via Noise Trajectory Search [10.8507840358202]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Score Priors Guided Deep Variational Inference for Unsupervised
Real-World Single Image Denoising [14.486289176696438]
本稿では,実世界の実演のためのスコア先行誘導深部変分推論,すなわちScoreDVIを提案する。
我々は、実世界の雑音をモデル化するために、非i.i.d$ガウス混合モデルと変分ノイズ後部モデルを利用する。
提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T03:26:58Z) - Deep Variation Prior: Joint Image Denoising and Noise Variance
Estimation without Clean Data [2.3061446605472558]
本稿では,1つの共同学習フレームワークにおける画像復調と雑音分散推定の課題について検討する。
我々は、教師なしのディープラーニングフレームワークであるDVPを構築し、デノイザを同時に学習し、ノイズ分散を推定する。
提案手法では, クリーンなトレーニング画像やノイズ推定の外部ステップは必要とせず, ノイズ画像のみを用いて最小2乗誤差を近似する。
論文 参考訳(メタデータ) (2022-09-19T17:29:32Z) - IDR: Self-Supervised Image Denoising via Iterative Data Refinement [66.5510583957863]
本稿では,最先端のデノナイジング性能を実現するために,教師なしの実用的なデノナイジング手法を提案する。
本手法では, 1つのノイズ画像と1つのノイズモデルしか必要とせず, 実際の生画像に容易にアクセス可能である。
実世界のアプリケーションにおける生画像復調性能を評価するため,500シーンのシーンを含む高品質な生画像データセットSenseNoise-500を構築した。
論文 参考訳(メタデータ) (2021-11-29T07:22:53Z) - Noise2Score: Tweedie's Approach to Self-Supervised Image Denoising
without Clean Images [35.41467558264341]
異なるアプローチを統合するために,ノイズ2スコアと呼ばれる新しい手法を提案する。
具体的には,後部分布のモードを見つけることで,クリーンな画像のない画像認識問題に対処できることを示す。
そこで本手法では,残差復調オートエンコーダを用いて雑音画像からスコア関数を安定に推定する手法を提案する。
論文 参考訳(メタデータ) (2021-06-13T14:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。