論文の概要: Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
- arxiv url: http://arxiv.org/abs/2501.09732v1
- Date: Thu, 16 Jan 2025 18:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 16:36:32.606294
- Title: Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
- Title(参考訳): 拡散モデルの推論時間スケーリング
- Authors: Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie,
- Abstract要約: 拡散モデルの予測時間スケーリングの挙動を,デノナイジングステップの増大を超えて検討する。
拡散サンプリングプロセスにおいて,より優れたノイズを特定することを目的とした探索問題を考察する。
その結果, 推定時間計算の増加は, 拡散モデルにより生成された試料の品質を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 48.16416920913577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario.
- Abstract(参考訳): 生成モデルは、データ、計算資源、モデルサイズを増大させることで、トレーニング中にスケールする能力によって、様々な領域で大きな影響を与えてきた。
最近の研究は、Large Language Models (LLMs)における推論時スケーリングの振る舞いを探求し始め、推論中のさらなる計算でパフォーマンスをさらに向上させる方法について明らかにしている。
LLMとは異なり、拡散モデルは本質的には推論時の計算をデノナイジングステップの数で調整する柔軟性を持っている。
本研究では,拡散モデルの予測時間スケーリング挙動について,デノナイジングステップの増加を超えて検討し,計算量の増加により生成性能がさらに向上する方法について検討する。
具体的には,拡散サンプリングプロセスにおいて,より優れたノイズを特定することを目的とした探索問題を考察する。
フィードバックを提供するための検証器と、より優れたノイズ候補を見つけるためのアルゴリズムの2つの軸に沿って設計空間を構築する。
クラス条件付きおよびテキスト条件付き画像生成ベンチマークの広範な実験により、推論時間の増大は拡散モデルによって生成されたサンプルの品質を大幅に向上させることが明らかとなり、画像の複雑な性質により、フレームワーク内のコンポーネントの組み合わせは、異なるアプリケーションシナリオに特異的に適合するように選択できることがわかった。
関連論文リスト
- Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs [52.50288418639075]
本稿では, 個別拡散を単純化し, 時間とともに条件付き独立性を仮定することで問題を回避できる, イテレーティブ・デノナイジング(Iterative Denoising)という新しい枠組みを提案する。
実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-27T15:08:58Z) - Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing [10.542645300983878]
本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
論文 参考訳(メタデータ) (2025-03-25T06:30:45Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms [35.74919627230777]
推論ファーストの視点は、新しい生成事前学習アルゴリズムに刺激を与えることができると論じる。
本研究では,拡散モデルの予測過程における目標修正による制限への対処が,安定な単一段階アルゴリズムを実現する方法を示す。
論文 参考訳(メタデータ) (2025-03-10T10:27:30Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
はじめに,デノナイジングネットワーク自体によって生成順序を予測できることを実証した。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。