論文の概要: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- arxiv url: http://arxiv.org/abs/2411.14871v1
- Date: Fri, 22 Nov 2024 11:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:48.166925
- Title: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- Title(参考訳): 明示的離散分布推定による拡散モデル選好アライメントの優先順位決定ステップ
- Authors: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu,
- Abstract要約: 本稿では,信用割当の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
DDEは、各ステップの観点から、端末の復号化分布を直接推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
- 参考スコア(独自算出の注目度): 18.295352638247362
- License:
- Abstract: Diffusion models have shown remarkable success in text-to-image generation, making alignment methods for these models increasingly important. A key challenge is the sparsity of preference labels, which are typically available only at the terminal of denoising trajectories. This raises the issue of how to assign credit across denoising steps based on these sparse labels. In this paper, we propose Denoised Distribution Estimation (DDE), a novel method for credit assignment. Unlike previous approaches that rely on auxiliary models or hand-crafted schemes, DDE derives its strategy more explicitly. The proposed DDE directly estimates the terminal denoised distribution from the perspective of each step. It is equipped with two estimation strategies and capable of representing the entire denoising trajectory with a single model inference. Theoretically and empirically, we show that DDE prioritizes optimizing the middle part of the denoising trajectory, resulting in a novel and effective credit assignment scheme. Extensive experiments demonstrate that our approach achieves superior performance, both quantitatively and qualitatively.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めており、これらのモデルのアライメント手法がますます重要になっている。
重要な課題は選好ラベルの幅であり、通常は軌道を飾る終端でのみ利用可能である。
これにより、これらのスパースラベルに基づいてデノイングステップをまたいでクレジットを割り当てる方法が問題になる。
本稿では,クレジット代入の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
補助モデルや手作りのスキームに依存する従来のアプローチとは異なり、DDEは戦略をより明確に導いている。
提案したDDEは,各ステップの観点から直接,端末の復号化分布を推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
理論的かつ実証的に、DDEは認知軌道の中間部分の最適化を優先し、新しい効果的な信用割当方式をもたらすことを示す。
大規模実験により,本手法は定量的かつ定性的に優れた性能を発揮することが示された。
関連論文リスト
- Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
ダイレクトリワード蒸留とポリシー最適化(DRDO)は、知識蒸留に基づく選好アライメント手法である。
DRDOは、新規な嗜好確率の定式化から人間の嗜好を学習しながら、託宣によって割り当てられた報酬を直接模倣する。
Ultrafeedback と TL;DR データセットに関する実験結果から,DRDO を用いてトレーニングしたポリシーが従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Modeling Pedestrian Intrinsic Uncertainty for Multimodal Stochastic Trajectory Prediction via Energy Plan Denoising [25.763865805257634]
軌道予測のためのエネルギー計画デノイング(EPD)モデルを提案する。
EPDは反復的なステップの必要性を減らし、効率を向上する。
2つの公開データセットでEPDを検証することで、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-05-12T05:11:23Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。
本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。