論文の概要: Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models
- arxiv url: http://arxiv.org/abs/2506.01320v2
- Date: Thu, 05 Jun 2025 06:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.162031
- Title: Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models
- Title(参考訳): Psi-Sampler:スコアモデルにおけるSMCに基づく推論時間逆アライメントの初期粒子サンプリング
- Authors: Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung,
- Abstract要約: $Psi$-Samplerは、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークである。
スコアベース生成モデルとの推論時間報酬アライメントは、大きな注目を集めている。
- 参考スコア(独自算出の注目度): 10.542645300983878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $\Psi$-Sampler, an SMC-based framework incorporating pCNL-based initial particle sampling for effective inference-time reward alignment with a score-based generative model. Inference-time reward alignment with score-based generative models has recently gained significant traction, following a broader paradigm shift from pre-training to post-training optimization. At the core of this trend is the application of Sequential Monte Carlo (SMC) to the denoising process. However, existing methods typically initialize particles from the Gaussian prior, which inadequately captures reward-relevant regions and results in reduced sampling efficiency. We demonstrate that initializing from the reward-aware posterior significantly improves alignment performance. To enable posterior sampling in high-dimensional latent spaces, we introduce the preconditioned Crank-Nicolson Langevin (pCNL) algorithm, which combines dimension-robust proposals with gradient-informed dynamics. This approach enables efficient and scalable posterior sampling and consistently improves performance across various reward alignment tasks, including layout-to-image generation, quantity-aware generation, and aesthetic-preference generation, as demonstrated in our experiments. Project Webpage: https://psi-sampler.github.io/
- Abstract(参考訳): 我々は、pCNLに基づく初期粒子サンプリングを組み込んだSMCベースのフレームワークである$\Psi$-Samplerを導入し、スコアベースの生成モデルと効果的な推論時間報酬アライメントを実現する。
スコアベース生成モデルとの推論時間報酬アライメントは、事前学習から後学習の最適化への幅広いパラダイムシフトに続き、近年大きな注目を集めている。
この傾向の中核となるのは、シークエンシャルモンテカルロ(SMC)のデノナイジングプロセスへの応用である。
しかし、既存の方法ではガウス前の粒子を初期化し、報酬関連領域を不適切に捕捉し、サンプリング効率を低下させる。
報酬認識後部の初期化はアライメント性能を著しく向上させることを示した。
高次元ラテント空間における後続サンプリングを可能にするために,次元ロバスト提案と勾配インフォームドダイナミクスを組み合わせたプレコンディション付きクランク・ニコルソン・ランゲヴィン(pCNL)アルゴリズムを導入する。
提案手法は, レイアウト・ツー・イメージ生成, 量・認識生成, 美的嗜好生成など, 様々な報奨アライメントタスクにおいて, 効率よく, スケーラブルな後方サンプリングを実現する。
Project Webpage: https://psi-sampler.github.io/
関連論文リスト
- Test-Time Alignment of Discrete Diffusion Models with Sequential Monte Carlo [19.81513273510523]
本研究では,SMC(Sequential Monte Carlo)をベースとしたトレーニングフリー手法を提案する。
提案手法は, 報酬関数の1次テイラー展開により得られる局所的最適提案をツイストしたSMCを利用する。
離散空間における不定義勾配の挑戦に対処するために、Gumbel-Softmax 緩和を導入し、離散生成フレームワーク内で効率的な勾配に基づく近似を可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:03Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文 参考訳(メタデータ) (2025-02-24T04:22:57Z) - Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator [32.05337749590184]
本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。
OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
論文 参考訳(メタデータ) (2025-02-06T23:45:08Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。