論文の概要: Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases
- arxiv url: http://arxiv.org/abs/2402.08552v1
- Date: Tue, 13 Feb 2024 15:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:54:33.039916
- Title: Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases
- Title(参考訳): 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から
- Authors: Ziyi Zhang and Sen Zhang and Yibing Zhan and Yong Luo and Yonggang Wen
and Dacheng Tao
- Abstract要約: 拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,中間段階の時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。
- 参考スコア(独自算出の注目度): 81.49800426169632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the gap between diffusion models and human preferences is crucial
for their integration into practical generative workflows. While optimizing
downstream reward models has emerged as a promising alignment strategy,
concerns arise regarding the risk of excessive optimization with learned reward
models, which potentially compromises ground-truth performance. In this work,
we confront the reward overoptimization problem in diffusion model alignment
through the lenses of both inductive and primacy biases. We first identify the
divergence of current methods from the temporal inductive bias inherent in the
multi-step denoising process of diffusion models as a potential source of
overoptimization. Then, we surprisingly discover that dormant neurons in our
critic model act as a regularization against overoptimization, while active
neurons reflect primacy bias in this setting. Motivated by these observations,
we propose Temporal Diffusion Policy Optimization with critic active neuron
Reset (TDPO-R), a policy gradient algorithm that exploits the temporal
inductive bias of intermediate timesteps, along with a novel reset strategy
that targets active neurons to counteract the primacy bias. Empirical results
demonstrate the superior efficacy of our algorithms in mitigating reward
overoptimization.
- Abstract(参考訳): 拡散モデルと人間の好みのギャップを埋めることは、実際の生成ワークフローへの統合に不可欠である。
下流報酬モデルの最適化は有望な調整戦略として現れてきたが、学習した報酬モデルによる過度な最適化のリスクに関する懸念が生まれ、それによって地上性能が損なわれる可能性がある。
本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。
まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスから,現在の手法の分岐を過最適化の潜在的源として同定する。
そして驚くべきことに、私たちの批判モデルにおける休眠ニューロンが過剰な最適化に対する規則化として働くのに対して、アクティブニューロンはこの設定におけるプライマシーバイアスを反映している。
そこで本研究では,中間時間ステップの時間的インダクティブバイアスを利用する政策勾配アルゴリズムであるcritter active neuron reset (tdpo-r) と,活動ニューロンを標的にしてプライマリシーバイアスを克服する新しいリセット戦略を提案する。
実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Model-agnostic bias mitigation methods with regressor distribution
control for Wasserstein-based fairness metrics [0.6509758931804478]
より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。
提案手法は低次元空間において最適化を行い,コストのかかるモデル再訓練を回避する。
論文 参考訳(メタデータ) (2021-11-19T17:31:22Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。