論文の概要: Lookahead Sample Reward Guidance for Test-Time Scaling of Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.03211v1
- Date: Tue, 03 Feb 2026 07:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.310066
- Title: Lookahead Sample Reward Guidance for Test-Time Scaling of Diffusion Models
- Title(参考訳): 拡散モデルの試験時間スケーリングのためのルックアヘッドサンプルリワード誘導
- Authors: Yeongmin Kim, Donghyeok Shin, Byeonghu Na, Minsang Park, Richard Lee Kim, Il-Chul Moon,
- Abstract要約: 拡散モデルは強い生成性能を示すが、生成されたサンプルは人間の意図と完全に一致しないことが多い。
そこで本研究では,より高い人間対応報酬値を持つ領域からのサンプリングを可能にするテスト時間スケーリング手法について検討する。
- 参考スコア(独自算出の注目度): 28.29554194279748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated strong generative performance; however, generated samples often fail to fully align with human intent. This paper studies a test-time scaling method that enables sampling from regions with higher human-aligned reward values. Existing gradient guidance methods approximate the expected future reward (EFR) at an intermediate particle $\mathbf{x}_t$ using a Taylor approximation, but this approximation at each time step incurs high computational cost due to sequential neural backpropagation. We show that the EFR at any $\mathbf{x}_t$ can be computed using only marginal samples from a pre-trained diffusion model. The proposed EFR formulation detaches the neural dependency between $\mathbf{x}_t$ and the EFR, enabling closed-form guidance computation without neural backpropagation. To further improve efficiency, we introduce lookahead sampling to collect marginal samples. For final sample generation, we use an accurate solver that guides particles toward high-reward lookahead samples. We refer to this sampling scheme as LiDAR sampling. LiDAR achieves substantial performance improvements using only three samples with a 3-step lookahead solver, exhibiting steep performance gains as lookahead accuracy and sample count increase; notably, it reaches the same GenEval performance as the latest gradient guidance method for SDXL with a 9.5x speedup.
- Abstract(参考訳): 拡散モデルは強い生成性能を示すが、生成されたサンプルは人間の意図と完全に一致しないことが多い。
そこで本研究では,より高い人間対応報酬値を持つ領域からのサンプリングを可能にするテスト時間スケーリング手法について検討する。
既存の勾配誘導法はテイラー近似を用いて中間粒子$\mathbf{x}_t$の予測未来報酬(EFR)を近似するが、この近似は逐次的神経バックプロパゲーションによる計算コストを増大させる。
事前学習した拡散モデルから得られた限界サンプルのみを用いて,任意の$\mathbf{x}_t$でのERFを計算することができることを示す。
The proposed EFR formulation detaches the neural dependency between $\mathbf{x}_t$ and the EFR。
効率をさらに向上するために,辺縁サンプル収集のためのルックアヘッドサンプリングを導入する。
最終サンプル生成には、粒子を高解像度のルックアヘッドサンプルへ誘導する正確な解法を用いる。
このサンプリングスキームをLiDARサンプリングと呼ぶ。
LiDARは3段階のルックアヘッドソルバを備えた3つのサンプルのみを使用して大幅な性能向上を実現し、ルックアヘッド精度やサンプル数の増加などの性能向上を示すが、特に9.5倍の高速化でSDXLの最新の勾配誘導方法と同じGenEval性能に達する。
関連論文リスト
- Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Diffusion Tree Sampling: Scalable inference-time alignment of diffusion models [13.312007032203857]
事前訓練された拡散モデルを推論時に新しい目的に適応させることは、生成的モデリングにおいて未解決の問題である。
そこで本研究では,終末報酬を拡散連鎖を通じて伝播させることにより,報奨目標密度から抽出するツリーベースアプローチを提案する。
以前の世代からの情報を再利用することで、任意のアルゴリズムが追加の計算を着実により良いサンプルに変換する。
論文 参考訳(メタデータ) (2025-06-25T17:59:10Z) - Progressive Tempering Sampler with Diffusion [50.06039228068602]
本研究では, 拡散モデルを温度にわたって逐次訓練するニューラルサンプリング器を提案する。
また, 高温拡散モデルを組み合わせて低温試料を近似的に生成する手法を提案する。
本手法は,拡散型ニューラルサンプリングよりも高い精度で目標評価効率を向上する。
論文 参考訳(メタデータ) (2025-06-05T16:46:04Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - Diffusion Rejection Sampling [13.945372555871414]
Diffusion Rejection Sampling (DiffRS) は、サンプリングされたトランジションカーネルを各タイムステップで真のカーネルと整列するリジェクションサンプリングスキームである。
提案手法は, 各中間段階における試料の品質を評価し, 試料に応じて異なる作業で精製する機構とみなすことができる。
実験により,ベンチマークデータセット上でのDiffRSの最先端性能と高速拡散サンプリングおよび大規模テキスト・画像拡散モデルに対するDiffRSの有効性を実証した。
論文 参考訳(メタデータ) (2024-05-28T07:00:28Z) - Entropy-based Training Methods for Scalable Neural Implicit Sampler [20.35664492719671]
本稿では,制限を克服する,効率的でスケーラブルな暗黙的ニューラルサンプリング手法を提案する。
暗黙のサンプルは計算コストの低い大量のサンプルを生成することができる。
この2つのトレーニング手法を用いることで、目的の分布から学習し、生成する神経暗黙のサンプルを効果的に最適化する。
論文 参考訳(メタデータ) (2023-06-08T05:56:05Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。