論文の概要: Tuning-Free Alignment of Diffusion Models with Direct Noise Optimization
- arxiv url: http://arxiv.org/abs/2405.18881v2
- Date: Wed, 3 Jul 2024 05:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:24:59.203269
- Title: Tuning-Free Alignment of Diffusion Models with Direct Noise Optimization
- Title(参考訳): 直接雑音最適化を用いた拡散モデルの調整自由配向
- Authors: Zhiwei Tang, Jiangweizhi Peng, Jiasheng Tang, Mingyi Hong, Fan Wang, Tsung-Hui Chang,
- Abstract要約: 直接雑音最適化(DNO)という新しいアライメント手法を提案する。
設計上、DNOはチューニング不要で、生成中にオンライン形式でアライメントが発生するため、プロンプトに依存しない。
我々は、人間のフィードバックデータに基づいて訓練された複数の人気報酬関数について広範な実験を行い、提案したDNOアプローチが、最先端の報酬スコアと高画質を、すべて生成に適切な時間予算で達成できることを実証した。
- 参考スコア(独自算出の注目度): 45.77751895345154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we focus on the alignment problem of diffusion models with a continuous reward function, which represents specific objectives for downstream tasks, such as improving human preference. The central goal of the alignment problem is to adjust the distribution learned by diffusion models such that the generated samples maximize the target reward function. We propose a novel alignment approach, named Direct Noise Optimization (DNO), that optimizes the injected noise during the sampling process of diffusion models. By design, DNO is tuning-free and prompt-agnostic, as the alignment occurs in an online fashion during generation. We rigorously study the theoretical properties of DNO and also propose variants to deal with non-differentiable reward functions. Furthermore, we identify that naive implementation of DNO occasionally suffers from the out-of-distribution reward hacking problem, where optimized samples have high rewards but are no longer in the support of the pretrained distribution. To remedy this issue, we leverage classical high-dimensional statistics theory and propose to augment the DNO loss with certain probability regularization. We conduct extensive experiments on several popular reward functions trained on human feedback data and demonstrate that the proposed DNO approach achieves state-of-the-art reward scores as well as high image quality, all within a reasonable time budget for generation.
- Abstract(参考訳): 本研究では,人間の嗜好改善など,下流タスクの具体的目的を表す連続報酬関数を用いた拡散モデルのアライメント問題に焦点をあてる。
アライメント問題の主目的は、生成したサンプルが目標報酬関数を最大化するように拡散モデルで学習した分布を調整することである。
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOはチューニング不要で、生成中にオンライン形式でアライメントが発生するため、プロンプトに依存しない。
我々は、DNOの理論的性質を厳密に研究し、また、微分不可能な報酬関数を扱う変種を提案する。
さらに,DNO の素直な実装は,最適化されたサンプルが高い報酬を得られるが,事前学習された分布をサポートできない,不当な分配報酬ハック問題に悩まされることも見いだした。
この問題を解決するために,古典的高次元統計理論を活用し,確率正規化によるDNO損失の増大を提案する。
我々は、人間のフィードバックデータに基づいて訓練された複数の人気報酬関数について広範な実験を行い、提案したDNOアプローチが、最先端の報酬スコアと高画質を、すべて生成に適切な時間予算で達成できることを実証した。
関連論文リスト
- Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Diffusion Models as Constrained Samplers for Optimization with Unknown Constraints [42.47298301874283]
拡散モデルを用いてデータ多様体内で最適化を行う。
ボルツマン分布の積からサンプリング問題として元の最適化問題を再構成する。
提案手法は,従来の最先端のベースラインよりも優れた,あるいは同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-28T03:09:12Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。