論文の概要: Effective Test-Time Scaling of Discrete Diffusion through Iterative Refinement
- arxiv url: http://arxiv.org/abs/2511.05562v1
- Date: Tue, 04 Nov 2025 02:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.444398
- Title: Effective Test-Time Scaling of Discrete Diffusion through Iterative Refinement
- Title(参考訳): 反復リファインメントによる離散拡散の効率的な試験時間スケーリング
- Authors: Sanghyun Lee, Sunwoo Kim, Seungryong Kim, Jongho Park, Dongmin Park,
- Abstract要約: 離散拡散に適した新しいテスト時間スケーリング手法であるイテレーティブ・リワードガイドリファインメント(IterRef)を導入する。
我々は、このプロセスをMultiple-Try Metropolisフレームワークで形式化し、報酬整合分布への収束を証明した。
IterRefは計算予算の低さで大幅に上昇し、最先端のベースラインをはるかに超えている。
- 参考スコア(独自算出の注目度): 51.54933696252104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling through reward-guided generation remains largely unexplored for discrete diffusion models despite its potential as a promising alternative. In this work, we introduce Iterative Reward-Guided Refinement (IterRef), a novel test-time scaling method tailored to discrete diffusion that leverages reward- guided noising-denoising transitions to progressively refine misaligned intermediate states. We formalize this process within a Multiple-Try Metropolis (MTM) framework, proving convergence to the reward-aligned distribution. Unlike prior methods that assume the current state is already aligned with the reward distribution and only guide the subsequent transition, our approach explicitly refines each state in situ, progressively steering it toward the optimal intermediate distribution. Across both text and image domains, we evaluate IterRef on diverse discrete diffusion models and observe consistent improvements in reward-guided generation quality. In particular, IterRef achieves striking gains under low compute budgets, far surpassing prior state-of-the-art baselines.
- Abstract(参考訳): 報酬誘導生成によるテストタイムスケーリングは、有望な代替案としての可能性にもかかわらず、離散拡散モデルでは未定のままである。
本研究は, 離散拡散に適した新しい試験時間スケーリング手法であるIterRef(IterRef)を導入する。
我々は、このプロセスをMTM(Multiple-Try Metropolis)フレームワークで形式化し、報酬整合分布への収束を証明した。
現在の状態がすでに報酬分布に整合していると仮定し、その後の遷移のみを導く従来の方法とは異なり、我々の手法は各状態をその場で明確に洗練し、段階的に最適な中間分布に向かって制御する。
テキスト領域と画像領域の双方で、多種多様な離散拡散モデル上でIterRefを評価し、報酬誘導生成品質の一貫した改善を観察する。
特に、IterRefは計算予算が低く、最先端のベースラインをはるかに超えている。
関連論文リスト
- TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling [53.61290359948953]
タンジェンシャル増幅誘導(TAG)は、下層の拡散モデルを変更することなく、軌道信号のみで動作する。
この誘導過程を1次テイラー展開を利用して定式化する。
TAGは、最小限の計算加算で拡散サンプリング忠実度を改善する、プラグアンドプレイのアーキテクチャに依存しないモジュールである。
論文 参考訳(メタデータ) (2025-10-06T06:53:29Z) - Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching [36.348940136801296]
この問題に対処するために、離散データのための新しいガイダンスフレームワークを提案する。
学習した離散フローマッチングモデルにより、所望の分布の正確な遷移率を導出する。
本稿では,エネルギー誘導型シミュレーションと嗜好アライメントによるテキスト・ツー・イメージ生成とマルチモーダル理解タスクの有効性を示す。
論文 参考訳(メタデータ) (2025-09-26T05:51:31Z) - Observation Adaptation via Annealed Importance Resampling for Partially Observable Markov Decision Processes [4.830416359005018]
部分観測可能なマルコフ決定過程(POMDPs)は、状態不確実性の下での環境における逐次決定のための一般的な数学的モデルである。
オンラインソルバは通常、信念分布を更新するための重要再サンプリングに基づいてブートストラップ粒子フィルタを使用する。
本稿では,モンテカルロの反復的なステップを通して,状態遷移と最適分布の間のブリッジ分布の列を構築する手法を提案する。
論文 参考訳(メタデータ) (2025-03-25T03:05:00Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。