論文の概要: Projected Gradient Ascent for Efficient Reward-Guided Updates with One-Step Generative Models
- arxiv url: http://arxiv.org/abs/2602.08646v1
- Date: Mon, 09 Feb 2026 13:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.250908
- Title: Projected Gradient Ascent for Efficient Reward-Guided Updates with One-Step Generative Models
- Title(参考訳): 1ステップ生成モデルによる効率的なリワードガイド更新のための予測勾配上昇
- Authors: Jisung Hwang, Minhyuk Sung,
- Abstract要約: テストタイム潜時最適化は、事前訓練された生成モデルからかなり優れた報酬誘導世代を解放することができる。
しかし、品質を低下させ、実用には遅すぎるハッキングに報いる傾向があります。
ソフト正規化をハード・ホワイト・ガウス雑音制約に置き換えることにより,テスト時間最適化を効率的かつ信頼性的に行う。
- 参考スコア(独自算出の注目度): 25.61485337064313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a constrained latent optimization method for reward-guided generation that preserves white Gaussian noise characteristics with negligible overhead. Test-time latent optimization can unlock substantially better reward-guided generations from pretrained generative models, but it is prone to reward hacking that degrades quality and also too slow for practical use. In this work, we make test-time optimization both efficient and reliable by replacing soft regularization with hard white Gaussian noise constraints enforced via projected gradient ascent. Our method applies a closed-form projection after each update to keep the latent vector explicitly noise-like throughout optimization, preventing the drift that leads to unrealistic artifacts. This enforcement adds minimal cost: the projection matches the $O(N \log N)$ complexity of standard algorithms such as sorting or FFT and does not practically increase wall-clock time. In experiments, our approach reaches a comparable Aesthetic Score using only 30% of the wall-clock time required by the SOTA regularization-based method, while preventing reward hacking.
- Abstract(参考訳): 本稿では,白色ガウス雑音特性を無視可能なオーバーヘッドで保存する報酬誘導生成のための制約付き潜時最適化手法を提案する。
テストタイムの潜伏最適化は、事前訓練された生成モデルからかなり優れた報酬誘導世代を解放することができるが、品質を低下させ、実用的な使用には遅すぎるハッキングに対して報奨を与える傾向がある。
本研究では,ソフトな正規化を,投影勾配上昇によるハード・ホワイト・ガウス雑音制約に置き換えることにより,テスト時間最適化を効率的かつ信頼性に両立させる。
提案手法では,各更新後にクローズドフォームプロジェクションを適用して,非現実的アーティファクトにつながるドリフトを防止する。
プロジェクションはソートやFFTのような標準的なアルゴリズムの複雑さと一致し、ウォールクロック時間を実質的に増加させない。
実験では,SOTA正則化法で要求されるウォールクロック時間の30%しか必要とせず,報奨ハッキングを防ぎながら,同等のAesthetic Scoreに到達した。
関連論文リスト
- Optimal Stopping vs Best-of-$N$ for Inference Time Optimization [11.334978981105559]
PandoraのBox問題に基づく推論時間最適化のための新しいフレームワークを提案する。
そこで我々は,報酬分布を知らずにいつ生成を止めるかを決定するアルゴリズムを開発した。
この結果から,最適停止理論と推定時間スケーリングの原則的ブリッジが確立された。
論文 参考訳(メタデータ) (2025-10-01T19:25:59Z) - Optimal Stepsize for Diffusion Sampling [14.849487881523041]
拡散モデルは、優れた生成品質を達成するが、最適以下のステップの離散化による計算集約サンプリングに苦しむ。
本稿では,参照軌道から知識を抽出し,理論的に最適なスケジュールを抽出する動的プログラミングフレームワークであるOptimal Stepsize Distillationを提案する。
実験では、GenEvalで99.4%のパフォーマンスを維持しながら、10倍の高速化されたテキスト-画像生成を示す。
論文 参考訳(メタデータ) (2025-03-27T17:59:46Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-01-18T03:13:19Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Better Parameter-free Stochastic Optimization with ODE Updates for
Coin-Betting [31.60239268539764]
PFSGDアルゴリズムは最適理論性能を達成しながら、学習速度の設定を必要としない。
そこで本稿では, トランク型モデル上での連続時間Coin-Bettingに基づく新しいパラメータフリーアルゴリズムにより, 経験的ギャップを埋める。
この新しいパラメータフリーアルゴリズムは「最良のデフォルト」学習率でアルゴリズムを上回り、チューニングの必要なく微調整されたベースラインの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2020-06-12T23:10:25Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - Black-Box Certification with Randomized Smoothing: A Functional
Optimization Based Framework [60.981406394238434]
本稿では,非ガウス雑音とより一般的な攻撃に対する対向的認証の一般的な枠組みを提案する。
提案手法は,従来の手法よりも優れた認証結果を得るとともに,ランダム化スムーズな認証の新たな視点を提供する。
論文 参考訳(メタデータ) (2020-02-21T07:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。