論文の概要: Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation
- arxiv url: http://arxiv.org/abs/2411.14871v3
- Date: Thu, 13 Mar 2025 02:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:28.955991
- Title: Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation
- Title(参考訳): 明示的離散分布推定による拡散モデルの優先度アライメント
- Authors: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu,
- Abstract要約: 嗜好ラベルは典型的には、軌跡を識別する端末でのみ利用可能である。
そこで本研究では,中間ステップと端末の復号化分布を明示的に接続する復号化分布推定法を提案する。
我々の手法は定量的にも質的にも優れた性能を達成する。
- 参考スコア(独自算出の注目度): 18.295352638247362
- License:
- Abstract: Diffusion models have shown remarkable success in text-to-image generation, making preference alignment for these models increasingly important. The preference labels are typically available only at the terminal of denoising trajectories, which poses challenges in optimizing the intermediate denoising steps. In this paper, we propose to conduct Denoised Distribution Estimation (DDE) that explicitly connects intermediate steps to the terminal denoised distribution. Therefore, preference labels can be used for the entire trajectory optimization. To this end, we design two estimation strategies for our DDE. The first is stepwise estimation, which utilizes the conditional denoised distribution to estimate the model denoised distribution. The second is single-shot estimation, which converts the model output into the terminal denoised distribution via DDIM modeling. Analytically and empirically, we reveal that DDE equipped with two estimation strategies naturally derives a novel credit assignment scheme that prioritizes optimizing the middle part of the denoising trajectory. Extensive experiments demonstrate that our approach achieves superior performance, both quantitatively and qualitatively.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めており、これらのモデルの優先順位調整がますます重要になっている。
選好ラベルは典型的には、軌跡を識別する終端でのみ利用可能であり、中間の偏極ステップを最適化する際の課題を生じさせる。
本稿では,中間段階を端末の復号化分布に明示的に接続するDDE(Denoized Distribution Estimation)を提案する。
したがって、選好ラベルは全軌道最適化に利用できる。
この目的のために、我々はDDEのための2つの推定戦略を設計する。
1つ目は段階的推定であり、これは条件付き復号化分布を用いて復号化分布を推定する。
2つ目は単発推定であり、DDIMモデリングによりモデル出力を終端復号化分布に変換する。
解析的かつ実証的に、DDEに2つの推定戦略が組み込まれていることは、認知軌道の中間部分の最適化を優先する新しい信用割当方式を自然に導出することを明らかにする。
大規模実験により,本手法は定量的かつ定性的に優れた性能を発揮することが示された。
関連論文リスト
- Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Distributionally Robust Graph Out-of-Distribution Recommendation via Diffusion Model [7.92181856602497]
OODレコメンデーション(DRGO)のための分散ロバストグラフモデルを設計する。
具体的には,遅延空間における雑音効果を軽減するために,単純かつ効果的な拡散パラダイムを用いる。
DRGOの一般化誤差境界の理論的証明と,本手法がノイズサンプル効果を緩和する理論的解析を提供する。
論文 参考訳(メタデータ) (2025-01-26T15:07:52Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Modeling Pedestrian Intrinsic Uncertainty for Multimodal Stochastic Trajectory Prediction via Energy Plan Denoising [25.763865805257634]
軌道予測のためのエネルギー計画デノイング(EPD)モデルを提案する。
EPDは反復的なステップの必要性を減らし、効率を向上する。
2つの公開データセットでEPDを検証することで、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-05-12T05:11:23Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。