論文の概要: Test-Time Scaling of Diffusion Models via Noise Trajectory Search
- arxiv url: http://arxiv.org/abs/2506.03164v1
- Date: Sat, 24 May 2025 19:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.695966
- Title: Test-Time Scaling of Diffusion Models via Noise Trajectory Search
- Title(参考訳): 騒音軌跡探索による拡散モデルの試験時間スケーリング
- Authors: Vignav Ramesh, Morteza Mardani,
- Abstract要約: 我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
- 参考スコア(独自算出の注目度): 7.243632426715941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The iterative and stochastic nature of diffusion models enables test-time scaling, whereby spending additional compute during denoising generates higher-fidelity samples. Increasing the number of denoising steps is the primary scaling axis, but this yields quickly diminishing returns. Instead optimizing the noise trajectory--the sequence of injected noise vectors--is promising, as the specific noise realizations critically affect sample quality; but this is challenging due to a high-dimensional search space, complex noise-outcome interactions, and costly trajectory evaluations. We address this by first casting diffusion as a Markov Decision Process (MDP) with a terminal reward, showing tree-search methods such as Monte Carlo tree search (MCTS) to be meaningful but impractical. To balance performance and efficiency, we then resort to a relaxation of MDP, where we view denoising as a sequence of independent contextual bandits. This allows us to introduce an $\epsilon$-greedy search algorithm that globally explores at extreme timesteps and locally exploits during the intermediate steps where de-mixing occurs. Experiments on EDM and Stable Diffusion reveal state-of-the-art scores for class-conditioned/text-to-image generation, exceeding baselines by up to $164\%$ and matching/exceeding MCTS performance. To our knowledge, this is the first practical method for test-time noise trajectory optimization of arbitrary (non-differentiable) rewards.
- Abstract(参考訳): 拡散モデルの反復的および確率的性質は、テストタイムスケーリングを可能にし、デノナイズ中に追加の計算に費やすことで、高忠実度サンプルを生成する。
段数を増やすことが主要なスケーリング軸であるが、これはすぐにリターンを減少させる。
しかし,高次元探索空間,複雑なノイズ-アウトカム相互作用,コストのかかるトラジェクトリ評価などにより,ノイズの特定化がサンプル品質に重大な影響を与えているため,ノイズトラジェクトリの最適化が期待できる。
我々はまず,モンテカルロ木探索 (MCTS) などの木探索手法が有意だが実用的でないことを示すために,終末報酬付きマルコフ決定過程 (MDP) として拡散を鋳造することでこの問題に対処する。
性能と効率のバランスをとるため、我々はMDPの緩和を頼りにし、デノナイジングを独立した文脈的包帯の連続と見なす。
これにより、デミキシングが行われる中間段階において、極端な時間ステップと局所的なエクスプロイトをグローバルに探索する$\epsilon$-greedy検索アルゴリズムを導入することができる。
EDMとStable Diffusionの実験では、クラス条件/テキスト-画像生成のための最先端スコアが、最大164\%のベースラインを超え、MCTSのパフォーマンスが一致する。
我々の知る限り、これは任意の(微分不可能な)報酬の試験時間雑音軌跡最適化のための最初の実用的な方法である。
関連論文リスト
- Sampling Binary Data by Denoising through Score Functions [2.9465623430708905]
Tweedie-Miyasawa式(TMF)はスコアベース生成モデルにおいて重要な要素である。
TMFはノイズデータのスコア関数を介してこれらを結合する。
我々はガウスノイズの代わりにベルヌーイノイズを平滑化装置として採用する。
論文 参考訳(メタデータ) (2025-02-01T20:59:02Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Score-based Generative Models with Adaptive Momentum [40.84399531998246]
変換過程を高速化する適応運動量サンプリング法を提案する。
提案手法は,2倍から5倍の速度で,より忠実な画像/グラフを小さなサンプリングステップで作成できることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:20:27Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Diffusion Model Based Posterior Sampling for Noisy Linear Inverse Problems [14.809545109705256]
本稿では、簡単な閉形式近似を確率スコアに提案することにより、高速で効果的な解を提案する。
拡散モデルとフローベースモデルの両方において、様々な雑音線形逆問題に対して広範な実験を行う。
提案手法は,全ての基本手法よりもはるかに高速でありながら,高い競争力あるいはより優れた復元性能を示す。
論文 参考訳(メタデータ) (2022-11-20T01:09:49Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。