Fugu-MT 論文翻訳(概要): Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

論文の概要: Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

arxiv url: http://arxiv.org/abs/2402.08552v2
Date: Wed, 5 Jun 2024 17:36:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 01:21:50.743778
Title: Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases
Title（参考訳）: 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から
Authors: Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao,
Abstract要約: 拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
参考スコア（独自算出の注目度）: 76.9127853906115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bridging the gap between diffusion models and human preferences is crucial for their integration into practical generative workflows. While optimizing downstream reward models has emerged as a promising alignment strategy, concerns arise regarding the risk of excessive optimization with learned reward models, which potentially compromises ground-truth performance. In this work, we confront the reward overoptimization problem in diffusion model alignment through the lenses of both inductive and primacy biases. We first identify a mismatch between current methods and the temporal inductive bias inherent in the multi-step denoising process of diffusion models, as a potential source of reward overoptimization. Then, we surprisingly discover that dormant neurons in our critic model act as a regularization against reward overoptimization while active neurons reflect primacy bias. Motivated by these observations, we propose Temporal Diffusion Policy Optimization with critic active neuron Reset (TDPO-R), a policy gradient algorithm that exploits the temporal inductive bias of diffusion models and mitigates the primacy bias stemming from active neurons. Empirical results demonstrate the superior efficacy of our methods in mitigating reward overoptimization. Code is avaliable at https://github.com/ZiyiZhang27/tdpo.
Abstract（参考訳）: 拡散モデルと人間の嗜好のギャップを埋めることは、実際の生成ワークフローに統合するために重要である。下流の報酬モデルの最適化は有望なアライメント戦略として現れてきたが、学習された報酬モデルによる過度な最適化のリスクが懸念され、それによって根底的なパフォーマンスが損なわれる可能性がある。本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスと現在の手法のミスマッチを,報酬過小評価の潜在的源として同定する。そして、我々の批評家モデルにおける休眠ニューロンが報酬過小評価に対する正則化として機能し、アクティブニューロンはプライマリーバイアスを反映していることが驚くほどわかりました。これらの観測から得られた時間拡散政策最適化(TDPO-R)を提案する。これは、拡散モデルの時間的帰納バイアスを利用して、活動ニューロンから生じる優劣バイアスを緩和するポリシー勾配アルゴリズムである。実験の結果,報酬過小評価を緩和する手法が有効であることが示された。コードはhttps://github.com/ZiyiZhang27/tdpo.comで検証可能である。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。 KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文参考訳（メタデータ） (2025-07-01T05:55:28Z)
Rethinking Direct Preference Optimization in Diffusion Models [15.358181258656229]
拡散に基づく選好最適化を改良する新しい手法を提案する。まず、凍結参照モデルを緩和し、探索を促進する安定した参照モデル更新戦略を導入する。第2に、タイムステップ間の報酬スケール不均衡問題を緩和するタイムステップ対応トレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-05-24T15:14:45Z)
Towards more transferable adversarial attack in black-box manner [1.1417805445492082]
移動可能性に基づくブラックボックス攻撃は、現実のシナリオで実際に適用可能であることから、大きな注目を集めている。近年の最先端アプローチであるDiffPGDは、拡散型対向浄化モデルを用いてアダプティブアタックを実現することで、転送性の向上を実証している。本稿では,新しい損失関数と一意な代理モデルを組み合わせることで,仮説の検証を行う。
論文参考訳（メタデータ） (2025-05-23T16:49:20Z)
INDIGO+: A Unified INN-Guided Probabilistic Diffusion Algorithm for Blind and Non-Blind Image Restoration [22.19661915697775]
非盲点画像復元のための新しい INN 誘導確率拡散アルゴリズムを提案する。 INDIGOとBlindINDIGOは、非可逆ニューラルネットワーク(INN)の完全な再構成特性と、事前訓練された拡散モデルの強力な生成能力の利点を組み合わせている。
論文参考訳（メタデータ） (2025-01-23T18:51:52Z)
Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。 DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文参考訳（メタデータ） (2024-10-17T15:10:13Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文参考訳（メタデータ） (2024-05-30T03:57:29Z)
Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文参考訳（メタデータ） (2024-05-29T08:39:39Z)
Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文参考訳（メタデータ） (2024-01-17T07:58:18Z)
Fast Diffusion EM: a diffusion model for blind inverse problems with application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文参考訳（メタデータ） (2023-09-01T06:47:13Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
Model-agnostic bias mitigation methods with regressor distribution control for Wasserstein-based fairness metrics [0.6509758931804478]
より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。提案手法は低次元空間において最適化を行い,コストのかかるモデル再訓練を回避する。
論文参考訳（メタデータ） (2021-11-19T17:31:22Z)
Loss function based second-order Jensen inequality and its application to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。 PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文参考訳（メタデータ） (2021-06-09T12:13:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。