論文の概要: Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases
- arxiv url: http://arxiv.org/abs/2402.08552v2
- Date: Wed, 5 Jun 2024 17:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:21:50.743778
- Title: Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases
- Title(参考訳): 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から
- Authors: Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao,
- Abstract要約: 拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
- 参考スコア(独自算出の注目度): 76.9127853906115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the gap between diffusion models and human preferences is crucial for their integration into practical generative workflows. While optimizing downstream reward models has emerged as a promising alignment strategy, concerns arise regarding the risk of excessive optimization with learned reward models, which potentially compromises ground-truth performance. In this work, we confront the reward overoptimization problem in diffusion model alignment through the lenses of both inductive and primacy biases. We first identify a mismatch between current methods and the temporal inductive bias inherent in the multi-step denoising process of diffusion models, as a potential source of reward overoptimization. Then, we surprisingly discover that dormant neurons in our critic model act as a regularization against reward overoptimization while active neurons reflect primacy bias. Motivated by these observations, we propose Temporal Diffusion Policy Optimization with critic active neuron Reset (TDPO-R), a policy gradient algorithm that exploits the temporal inductive bias of diffusion models and mitigates the primacy bias stemming from active neurons. Empirical results demonstrate the superior efficacy of our methods in mitigating reward overoptimization. Code is avaliable at https://github.com/ZiyiZhang27/tdpo.
- Abstract(参考訳): 拡散モデルと人間の嗜好のギャップを埋めることは、実際の生成ワークフローに統合するために重要である。
下流の報酬モデルの最適化は有望なアライメント戦略として現れてきたが、学習された報酬モデルによる過度な最適化のリスクが懸念され、それによって根底的なパフォーマンスが損なわれる可能性がある。
本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。
まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスと現在の手法のミスマッチを,報酬過小評価の潜在的源として同定する。
そして、我々の批評家モデルにおける休眠ニューロンが報酬過小評価に対する正則化として機能し、アクティブニューロンはプライマリーバイアスを反映していることが驚くほどわかりました。
これらの観測から得られた時間拡散政策最適化(TDPO-R)を提案する。これは、拡散モデルの時間的帰納バイアスを利用して、活動ニューロンから生じる優劣バイアスを緩和するポリシー勾配アルゴリズムである。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
コードはhttps://github.com/ZiyiZhang27/tdpo.comで検証可能である。
関連論文リスト
- Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Tuning-Free Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
直接雑音最適化(DNO)という新しいアライメント手法を提案する。
設計上、DNOはチューニング不要で、生成中にオンライン形式でアライメントが発生するため、プロンプトに依存しない。
我々は、人間のフィードバックデータに基づいて訓練された複数の人気報酬関数について広範な実験を行い、提案したDNOアプローチが、最先端の報酬スコアと高画質を、すべて生成に適切な時間予算で達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Debias the Training of Diffusion Models [53.49637348771626]
本研究では,拡散モデルにおいて一定の損失重み戦略を用いることで,トレーニング期間中に偏りが生じるという理論的証拠を提供する。
理論的に偏りのない原理に基づくエレガントで効果的な重み付け戦略を提案する。
これらの分析は、拡散モデルの内部動作の理解とデミステレーションを促進することが期待されている。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Model-agnostic bias mitigation methods with regressor distribution
control for Wasserstein-based fairness metrics [0.6509758931804478]
より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。
提案手法は低次元空間において最適化を行い,コストのかかるモデル再訓練を回避する。
論文 参考訳(メタデータ) (2021-11-19T17:31:22Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。