論文の概要: Gradient-Free Noise Optimization for Reward Alignment in Generative Models
- arxiv url: http://arxiv.org/abs/2605.11347v2
- Date: Wed, 13 May 2026 05:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.880258
- Title: Gradient-Free Noise Optimization for Reward Alignment in Generative Models
- Title(参考訳): 生成モデルにおける逆アライメントの勾配自由騒音最適化
- Authors: Jeongsol Kim, Hongeun Kim, Jian Wang, Jong Chul Ye,
- Abstract要約: ZeNOは、経路積分制御問題としてノイズ最適化を定式化する、勾配のないフレームワークである。
効果的な推論時間スケーリングを可能にし、多様なジェネレータと報酬関数間で強力なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 52.42087778653147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing reward alignment methods for diffusion and flow models rely on multi-step stochastic trajectories, making them difficult to extend to deterministic generators. A natural alternative is noise-space optimization, but existing approaches require backpropagation through the generator and reward pipeline, limiting applicability to differentiable settings. To address this, here we present ZeNO (Zeroth-order Noise Optimization), a gradient-free framework that formulates noise optimization as a path-integral control problem, estimable from zeroth-order reward evaluations alone. When instantiated with an Ornstein--Uhlenbeck reference process, the update connects to Langevin dynamics implicitly targeting a reward-tilted distribution. ZeNO enables effective inference-time scaling and demonstrates strong performance across diverse generators and reward functions, including a protein structure generation task where backpropagation is infeasible.
- Abstract(参考訳): 拡散と流れモデルのための既存の報酬アライメント手法は、多段階確率軌道に依存しており、決定論的生成物に拡張することが困難である。
自然の代替手段はノイズ空間の最適化であるが、既存のアプローチではジェネレータと報奨パイプラインによるバックプロパゲーションが必要であり、異なる設定への適用性を制限する。
そこで本稿では,ゼロ階評価のみから推定可能な経路積分制御問題として雑音最適化を定式化する,勾配のないZeNO(Zeroth-order Noise Optimization)を提案する。
Ornstein--Uhlenbeck参照プロセスでインスタンス化されると、更新は報酬型ディストリビューションを暗黙的にターゲットとするLangevin Dynamicsに接続する。
ZeNOは効果的な推論時間スケーリングを可能にし、バックプロパゲーションが不可能なタンパク質構造生成タスクを含む、多様なジェネレータと報酬関数間で強力なパフォーマンスを示す。
関連論文リスト
- Oracle Noise: Faster Semantic Spherical Alignment for Interpretable Latent Optimization [5.814544128372275]
Oracle Noiseは、ハイパースフィアに限られるセマンティック駆動の最適化としてノイズを緩和するゼロショットフレームワークである。
ブラックボックスモデルなしでセマンティックアライメントと優れた美学を著しく加速する。
人間の好みの指標(HPSv2、ImageReward)、セマンティックアライメント(CLIP Score)、サンプルの多様性など、いずれも厳格な2秒の最適化予算内で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-26T05:32:26Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Dynamic Anisotropic Smoothing for Noisy Derivative-Free Optimization [0.0]
雑音のない微分自由最適化のための球平滑化法とガウス平滑化法を拡張した新しいアルゴリズムを提案する。
アルゴリズムはスムーズなカーネルの形状を動的に適応させ、局所最適関数の Hessian を近似する。
論文 参考訳(メタデータ) (2024-05-02T21:04:20Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。