Fugu-MT 論文翻訳(概要): Inference-Time Alignment of Diffusion Models via Trust-Region Iterative Twisted Sequential Monte Carlo

論文の概要: Inference-Time Alignment of Diffusion Models via Trust-Region Iterative Twisted Sequential Monte Carlo

arxiv url: http://arxiv.org/abs/2605.25123v1
Date: Sun, 24 May 2026 15:08:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.842382
Title: Inference-Time Alignment of Diffusion Models via Trust-Region Iterative Twisted Sequential Monte Carlo
Title（参考訳）: 信頼回帰反復2次モンテカルロによる拡散モデルの推測時間アライメント
Authors: Weixin Wang, Yu Yang, Wei Deng, Pan Xu,
Abstract要約: 拡散に基づく生成モデルの推論時間アライメントについて検討する。 SMCに基づく推論時間アライメントにおけるツイスト機能学習のための信頼領域フレームワークを提案する。
参考スコア（独自算出の注目度）: 15.105260031413698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study inference-time alignment for diffusion-based generative models, aiming to steer a base model toward high-reward outputs without updating its weights. Recent Sequential Monte Carlo (SMC)-based steering methods approximate reward-tilted target distributions in a principled way, but their proposals remain largely tied to the base sampler. Since reward information is mainly used after propagation through particle reweighting and resampling, these methods can require large particle budgets and suffer from weight degeneracy and high-variance estimates. One way to reduce variance and improve particle efficiency is to iteratively learn twisting functions that provide look-ahead guidance, as in twisted SMC. However, existing learnable twisting methods are developed mainly for classical sequential inference and can be unstable when applied to diffusion-based alignment with high-dimensional state spaces and terminal, noisy, or black-box rewards. We propose Trust-Region Iterative Twisted Sequential Monte Carlo (TRI-TSMC), a trust-region framework for learning twisting functions in SMC-based inference-time alignment. Each iteration computes an exact KL-constrained update in path space, which admits a closed-form solution by tempered importance reweighting, and projects this target back to the parameterized twisted family by weighted maximum likelihood. Theoretically, we formalize the value-function interpretation of the optimal twisting function and show that it yields a zero-variance sampler. We prove that the trust-region update follows an escort path toward the target distribution, that the weighted maximum-likelihood update is a forward-KL projection, and that the path reduces residual importance-weight variance. Empirically, TRI-TSMC improves primary alignment objectives on discrete diffusion text generation and text-to-image generation under matched inference-time budgets.
Abstract（参考訳）: 拡散型生成モデルに対する推定時間アライメントについて検討し、重みを更新することなく高逆出力に向けてベースモデルを操ることを目的とした。最近のシークエンシャルモンテカルロ (SMC) に基づくステアリング法は, 原則的に報酬型ターゲット分布を近似するが, 提案手法はベースサンプリングに大きく結びついている。報奨情報は、主に粒子再加重および再サンプリングによる伝播後に使用されるため、これらの方法は大きな粒子予算を必要とし、重量縮退と高分散推定に苦しむことができる。分散を低減し、粒子効率を改善する一つの方法は、ツイストされたSMCのように、ルックアヘッドガイダンスを提供するツイスト関数を反復的に学習することである。しかし、既存の学習可能なツイスト法は主に古典的な逐次推論のために開発されており、高次元状態空間や終端、ノイズ、ブラックボックスの報酬との拡散に基づくアライメントに適用した場合は不安定である。 SMCに基づく推論時間アライメントにおけるツイスト機能学習のための信頼領域フレームワークであるTrust-Region Iterative Twisted Monte Carlo (TRI-TSMC)を提案する。各繰り返しは、経路空間における正確なKL制約の更新を計算し、重み付けされた重要度再重み付けによる閉形式解を認め、このターゲットを重み付けされた最大度でパラメータ化されたねじれ族に投影する。理論的には、最適ねじれ関数の値関数解釈を形式化し、0分散サンプリング器が得られることを示す。信頼区間更新は,目標分布に対する保護経路,重み付き最大値更新は前方KL投影であり,余剰の重要値と重みのばらつきを低減することを証明した。 TRI-TSMCは、一致した推論時間予算の下で、離散拡散テキスト生成とテキスト・ツー・イメージ生成の一次アライメント目標を実証的に改善する。

関連論文リスト

Contrastive Distribution Matching for Amortized Sequential Monte Carlo in Discrete Diffusion [33.94204857658877]
本稿では,SMC推論のコストを正および負のサンプルを用いてパラメータ化されたツイスト関数を学習することにより,SMC推論のコストを補正する新しいフレームワークであるContrastive Distribution Matching (CDM)を紹介する。実際、学習したツイスト関数の評価は、ベースモデルの1つの前方通過と比較して5%未満の計算オーバーヘッドを発生させる。我々は,有毒なテキスト生成,DNA配列設計,タンパク質設計性,拡散言語モデルアライメントなど,多岐にわたるアプローチの有効性と汎用性を検証した。
論文参考訳（メタデータ） (2026-05-22T08:06:52Z)
Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文参考訳（メタデータ） (2026-03-07T01:49:59Z)
Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文参考訳（メタデータ） (2026-02-08T00:09:40Z)
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文参考訳（メタデータ） (2026-02-02T09:21:45Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Training-Free Stein Diffusion Guidance: Posterior Correction for Sampling Beyond High-Density Regions [46.59494117137471]
自由拡散誘導の訓練は、追加の訓練なしに既成の分類器を活用する柔軟な方法を提供する。本稿では,SOC を対象とする新たなトレーニングフリーフレームワークである Stein Diffusion Guidance (SDG) を紹介する。分子低密度サンプリングタスクの実験は、SDGが標準のトレーニングフリーガイダンス手法を一貫して上回っていることを示唆している。
論文参考訳（メタデータ） (2025-07-07T21:14:27Z)
Sequential Kalman Tuning of the $t$-preconditioned Crank-Nicolson algorithm: efficient, adaptive and gradient-free inference for Bayesian inverse problems [1.3654846342364308]
本稿では,EKI と Flow Annealed Kalman Inversion の適応的な実装を提案する。 EKIはガウス的目標測度と線形前方モデルにおいてのみ正確なものである。標準SMCの適応に比べてコンバージェンス率が大きく改善した。
論文参考訳（メタデータ） (2024-07-10T15:56:30Z)
Sequential Monte Carlo for Inclusive KL Minimization in Amortized Variational Inference [3.126959812401426]
SMC-Wakeは,モンテカルロの連続検層を用いて包摂的KL偏差の勾配を推定する補正式である。シミュレーションと実データの両方を用いた実験では、SMC-Wakeは既存の手法よりも後方を正確に近似する変動分布に適合する。
論文参考訳（メタデータ） (2024-03-15T18:13:48Z)
SIXO: Smoothing Inference with Twisted Objectives [8.049531918823758]
SIXOは平滑な分布を近似する対象を学習する手法である。次に、これらの学習対象とSMCを用いて、モデル学習と提案学習の変動目標を定義する。
論文参考訳（メタデータ） (2022-06-13T07:46:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。