論文の概要: Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases
- arxiv url: http://arxiv.org/abs/2402.08552v1
- Date: Tue, 13 Feb 2024 15:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:54:33.039916
- Title: Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases
- Title(参考訳): 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から
- Authors: Ziyi Zhang and Sen Zhang and Yibing Zhan and Yong Luo and Yonggang Wen
and Dacheng Tao
- Abstract要約: 拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,中間段階の時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。
- 参考スコア(独自算出の注目度): 81.49800426169632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the gap between diffusion models and human preferences is crucial
for their integration into practical generative workflows. While optimizing
downstream reward models has emerged as a promising alignment strategy,
concerns arise regarding the risk of excessive optimization with learned reward
models, which potentially compromises ground-truth performance. In this work,
we confront the reward overoptimization problem in diffusion model alignment
through the lenses of both inductive and primacy biases. We first identify the
divergence of current methods from the temporal inductive bias inherent in the
multi-step denoising process of diffusion models as a potential source of
overoptimization. Then, we surprisingly discover that dormant neurons in our
critic model act as a regularization against overoptimization, while active
neurons reflect primacy bias in this setting. Motivated by these observations,
we propose Temporal Diffusion Policy Optimization with critic active neuron
Reset (TDPO-R), a policy gradient algorithm that exploits the temporal
inductive bias of intermediate timesteps, along with a novel reset strategy
that targets active neurons to counteract the primacy bias. Empirical results
demonstrate the superior efficacy of our algorithms in mitigating reward
overoptimization.
- Abstract(参考訳): 拡散モデルと人間の好みのギャップを埋めることは、実際の生成ワークフローへの統合に不可欠である。
下流報酬モデルの最適化は有望な調整戦略として現れてきたが、学習した報酬モデルによる過度な最適化のリスクに関する懸念が生まれ、それによって地上性能が損なわれる可能性がある。
本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。
まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスから,現在の手法の分岐を過最適化の潜在的源として同定する。
そして驚くべきことに、私たちの批判モデルにおける休眠ニューロンが過剰な最適化に対する規則化として働くのに対して、アクティブニューロンはこの設定におけるプライマシーバイアスを反映している。
そこで本研究では,中間時間ステップの時間的インダクティブバイアスを利用する政策勾配アルゴリズムであるcritter active neuron reset (tdpo-r) と,活動ニューロンを標的にしてプライマリシーバイアスを克服する新しいリセット戦略を提案する。
実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Debias the Training of Diffusion Models [53.49637348771626]
本研究では,拡散モデルにおいて一定の損失重み戦略を用いることで,トレーニング期間中に偏りが生じるという理論的証拠を提供する。
理論的に偏りのない原理に基づくエレガントで効果的な重み付け戦略を提案する。
これらの分析は、拡散モデルの内部動作の理解とデミステレーションを促進することが期待されている。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - Enhancing Adversarial Robustness via Score-Based Optimization [22.87882885963586]
敵対的攻撃は、わずかな摂動を導入することによって、ディープニューラルネットワーク分類器を誤認する可能性がある。
ScoreOptと呼ばれる新しい対向防御方式を導入し、テスト時に対向サンプルを最適化する。
実験の結果,本手法は性能とロバスト性の両方において,既存の敵防御よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T03:59:42Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-agnostic bias mitigation methods with regressor distribution
control for Wasserstein-based fairness metrics [0.6509758931804478]
より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。
提案手法は低次元空間において最適化を行い,コストのかかるモデル再訓練を回避する。
論文 参考訳(メタデータ) (2021-11-19T17:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。