論文の概要: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- arxiv url: http://arxiv.org/abs/2411.14871v1
- Date: Fri, 22 Nov 2024 11:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.150701
- Title: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
- Title(参考訳): 明示的離散分布推定による拡散モデル選好アライメントの優先順位決定ステップ
- Authors: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu,
- Abstract要約: 本稿では,信用割当の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
DDEは、各ステップの観点から、端末の復号化分布を直接推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
- 参考スコア(独自算出の注目度): 18.295352638247362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown remarkable success in text-to-image generation, making alignment methods for these models increasingly important. A key challenge is the sparsity of preference labels, which are typically available only at the terminal of denoising trajectories. This raises the issue of how to assign credit across denoising steps based on these sparse labels. In this paper, we propose Denoised Distribution Estimation (DDE), a novel method for credit assignment. Unlike previous approaches that rely on auxiliary models or hand-crafted schemes, DDE derives its strategy more explicitly. The proposed DDE directly estimates the terminal denoised distribution from the perspective of each step. It is equipped with two estimation strategies and capable of representing the entire denoising trajectory with a single model inference. Theoretically and empirically, we show that DDE prioritizes optimizing the middle part of the denoising trajectory, resulting in a novel and effective credit assignment scheme. Extensive experiments demonstrate that our approach achieves superior performance, both quantitatively and qualitatively.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めており、これらのモデルのアライメント手法がますます重要になっている。
重要な課題は選好ラベルの幅であり、通常は軌道を飾る終端でのみ利用可能である。
これにより、これらのスパースラベルに基づいてデノイングステップをまたいでクレジットを割り当てる方法が問題になる。
本稿では,クレジット代入の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。
補助モデルや手作りのスキームに依存する従来のアプローチとは異なり、DDEは戦略をより明確に導いている。
提案したDDEは,各ステップの観点から直接,端末の復号化分布を推定する。
2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
理論的かつ実証的に、DDEは認知軌道の中間部分の最適化を優先し、新しい効果的な信用割当方式をもたらすことを示す。
大規模実験により,本手法は定量的かつ定性的に優れた性能を発揮することが示された。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T11:07:35Z) - A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。
まず、確率分布に対する一般正規化損失最小化として問題を定式化する。
本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-02-05T07:35:15Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
ダイレクトリワード蒸留とポリシー最適化(DRDO)は、知識蒸留に基づく選好アライメント手法である。
DRDOは、新規な嗜好確率の定式化から人間の嗜好を学習しながら、託宣によって割り当てられた報酬を直接模倣する。
Ultrafeedback と TL;DR データセットに関する実験結果から,DRDO を用いてトレーニングしたポリシーが従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Modeling Pedestrian Intrinsic Uncertainty for Multimodal Stochastic Trajectory Prediction via Energy Plan Denoising [25.763865805257634]
軌道予測のためのエネルギー計画デノイング(EPD)モデルを提案する。
EPDは反復的なステップの必要性を減らし、効率を向上する。
2つの公開データセットでEPDを検証することで、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-05-12T05:11:23Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - DF2: Distribution-Free Decision-Focused Learning [53.2476224456902]
決定中心学習(DFL)は近年,予測最適化問題に対する強力なアプローチとして出現している。
既存のエンドツーエンドDFL法は、モデル誤差、サンプル平均近似誤差、予測対象の分布に基づくパラメータ化の3つの重大なボトルネックによって妨げられている。
DF2は,これら3つのボトルネックに明示的に対処するために設計された,初となるテキストフリーな意思決定型学習手法である。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Differentiating Metropolis-Hastings to Optimize Intractable Densities [51.16801956665228]
我々はメトロポリス・ハスティングス検層の自動識別アルゴリズムを開発した。
難解な対象密度に対する期待値として表現された目的に対して勾配に基づく最適化を適用する。
論文 参考訳(メタデータ) (2023-06-13T17:56:02Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。
本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。