論文の概要: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- arxiv url: http://arxiv.org/abs/2411.14871v2
- Date: Wed, 25 Dec 2024 14:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:04.285612
- Title: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- Title(参考訳): 明示的離散分布推定による拡散モデル選好アライメントの優先順位決定ステップ
- Authors: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu,
- Abstract要約: 本稿では,信用割当の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
DDEは、各ステップの観点から、端末の復号化分布を直接推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
- 参考スコア(独自算出の注目度): 18.295352638247362
- License:
- Abstract: Diffusion models have shown remarkable success in text-to-image generation, making alignment methods for these models increasingly important. A key challenge is the sparsity of preference labels, which are typically available only at the terminal of denoising trajectories. This raises the issue of how to assign credit across denoising steps based on these sparse labels. In this paper, we propose Denoised Distribution Estimation (DDE), a novel method for credit assignment. Unlike previous approaches that rely on auxiliary models or hand-crafted schemes, DDE derives its strategy more explicitly. The proposed DDE directly estimates the terminal denoised distribution from the perspective of each step. It is equipped with two estimation strategies and capable of representing the entire denoising trajectory with a single model inference. Theoretically and empirically, we show that DDE prioritizes optimizing the middle part of the denoising trajectory, resulting in a novel and effective credit assignment scheme. Extensive experiments demonstrate that our approach achieves superior performance, both quantitatively and qualitatively.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めており、これらのモデルのアライメント手法がますます重要になっている。
重要な課題は選好ラベルの幅であり、通常は軌道を飾る終端でのみ利用可能である。
これにより、これらのスパースラベルに基づいてデノイングステップをまたいでクレジットを割り当てる方法が問題になる。
本稿では,クレジット代入の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
補助モデルや手作りのスキームに依存する従来のアプローチとは異なり、DDEは戦略をより明確に導いている。
提案したDDEは,各ステップの観点から直接,端末の復号化分布を推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
理論的かつ実証的に、DDEは認知軌道の中間部分の最適化を優先し、新しい効果的な信用割当方式をもたらすことを示す。
大規模実験により,本手法は定量的かつ定性的に優れた性能を発揮することが示された。
関連論文リスト
- Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Distributionally Robust Graph Out-of-Distribution Recommendation via Diffusion Model [7.92181856602497]
OODレコメンデーション(DRGO)のための分散ロバストグラフモデルを設計する。
具体的には,遅延空間における雑音効果を軽減するために,単純かつ効果的な拡散パラダイムを用いる。
DRGOの一般化誤差境界の理論的証明と,本手法がノイズサンプル効果を緩和する理論的解析を提供する。
論文 参考訳(メタデータ) (2025-01-26T15:07:52Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Modeling Pedestrian Intrinsic Uncertainty for Multimodal Stochastic Trajectory Prediction via Energy Plan Denoising [25.763865805257634]
軌道予測のためのエネルギー計画デノイング(EPD)モデルを提案する。
EPDは反復的なステップの必要性を減らし、効率を向上する。
2つの公開データセットでEPDを検証することで、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-05-12T05:11:23Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。