論文の概要: Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
- arxiv url: http://arxiv.org/abs/2503.19385v2
- Date: Wed, 26 Mar 2025 12:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:36.542352
- Title: Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
- Title(参考訳): 確率生成とローバー・バッジ・フォースによる流れモデルの予測時間スケーリング
- Authors: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung,
- Abstract要約: 本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
- 参考スコア(独自算出の注目度): 10.542645300983878
- License:
- Abstract: We propose an inference-time scaling approach for pretrained flow models. Recently, inference-time scaling has gained significant attention in LLMs and diffusion models, improving sample quality or better aligning outputs with user preferences by leveraging additional computation. For diffusion models, particle sampling has allowed more efficient scaling due to the stochasticity at intermediate denoising steps. On the contrary, while flow models have gained popularity as an alternative to diffusion models--offering faster generation and high-quality outputs in state-of-the-art image and video generative models--efficient inference-time scaling methods used for diffusion models cannot be directly applied due to their deterministic generative process. To enable efficient inference-time scaling for flow models, we propose three key ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2) Interpolant conversion, broadening the search space and enhancing sample diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of computational resources across timesteps to maximize budget utilization. Our experiments show that SDE-based generation, particularly variance-preserving (VP) interpolant-based generation, improves the performance of particle sampling methods for inference-time scaling in flow models. Additionally, we demonstrate that RBF with VP-SDE achieves the best performance, outperforming all previous inference-time scaling approaches.
- Abstract(参考訳): 本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
近年, LLM や拡散モデルにおいて, 推論時間のスケーリングが注目され, さらなる計算により, サンプル品質の向上や, ユーザの好みに合わせた出力の整合性が向上している。
拡散モデルでは、粒子サンプリングは中間偏極段階における確率性によりより効率的なスケーリングを可能にした。
それとは対照的に,拡散モデルの代替としてフローモデルが人気を集めている一方で,その決定論的生成過程により,拡散モデルに使用される効率的な推論時間スケーリング手法は直接適用できない。
フローモデルに対する効率的な推論時間スケーリングを実現するために、我々は3つの重要なアイデアを提案する。
1) 流れモデルにおける粒子サンプリングを可能にするSDEに基づく生成。
2)補間変換,探索空間の拡大,サンプルの多様性の向上,及び
3) 予算削減(RBF:Rollover Budget Forcing)は、予算利用を最大化するために、タイムステップにまたがる計算資源のアダプティブアロケーションである。
実験の結果,SDEに基づく生成,特に分散保存(VP)補間(VP)による生成は,流れモデルにおける予測時間スケーリングのための粒子サンプリング法の性能を向上させることがわかった。
さらに, RBFとVP-SDEを併用することで, 従来の推論時間スケーリング手法よりも優れた性能が得られることを示す。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Text-to-Image Rectified Flow as Plug-and-Play Priors [52.586838532560755]
整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。
補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。
また,画像のインバージョンや編集における競合性能も示す。
論文 参考訳(メタデータ) (2024-06-05T14:02:31Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - A prior regularized full waveform inversion using generative diffusion
models [0.5156484100374059]
フルウェーブフォームインバージョン(FWI)は高分解能地下モデル推定を提供する可能性がある。
観測の限界、例えば、地域雑音、限られたショットや受信機、帯域制限データなどにより、FWIで所望の高解像度モデルを得るのは難しい。
生成拡散モデルにより正規化されたFWIの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-22T10:10:34Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。