論文の概要: D3PO: Preference-Based Alignment of Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08295v1
- Date: Tue, 11 Mar 2025 11:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.720508
- Title: D3PO: Preference-Based Alignment of Discrete Diffusion Models
- Title(参考訳): D3PO:離散拡散モデルの優先度に基づくアライメント
- Authors: Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel,
- Abstract要約: 連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D3PO)を紹介する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D3POは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習手法の代替となることが示唆された。
- 参考スコア(独自算出の注目度): 14.874943508610857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved state-of-the-art performance across multiple domains, with recent advancements extending their applicability to discrete data. However, aligning discrete diffusion models with task-specific preferences remains challenging, particularly in scenarios where explicit reward functions are unavailable. In this work, we introduce Discrete Diffusion DPO (D3PO), the first adaptation of Direct Preference Optimization (DPO) to discrete diffusion models formulated as continuous-time Markov chains. Our approach derives a novel loss function that directly fine-tunes the generative process using preference data while preserving fidelity to a reference distribution. We validate D3PO on a structured binary sequence generation task, demonstrating that the method effectively aligns model outputs with preferences while maintaining structural validity. Our results highlight that D3PO enables controlled fine-tuning without requiring explicit reward models, making it a practical alternative to reinforcement learning-based approaches. Future research will explore extending D3PO to more complex generative tasks, including language modeling and protein sequence generation, as well as investigating alternative noise schedules, such as uniform noising, to enhance flexibility across different applications.
- Abstract(参考訳): 拡散モデルは複数の領域にまたがって最先端のパフォーマンスを達成しており、最近の進歩は個々のデータに適用性を広げている。
しかし、特に明示的な報酬関数が利用できないシナリオでは、個別の拡散モデルとタスク固有の嗜好を一致させることは依然として困難である。
本稿では、連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D3PO)を紹介する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
構造的二項列生成タスクにおけるD3POの有効性を検証し、構造的妥当性を維持しつつ、モデル出力と好みを効果的に整合させることを示した。
以上の結果から,D3POは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習手法の代替となることが示唆された。
将来の研究では、言語モデリングやタンパク質配列生成など、より複雑な生成タスクにD3POを拡張すること、また、異なるアプリケーション間の柔軟性を高めるために、一様ノイズ化などの代替ノイズスケジュールを調査する予定である。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Diverse Score Distillation [27.790458964072823]
ランダムな初期シードによって定義された生成経路に従うよう最適化するスコアの定式化を提案する。
本稿では,2次元最適化,テキストベースの3D推論,単一ビュー再構成などのタスクにまたがるDSD(Diverse Score Distillation)の応用について紹介する。
論文 参考訳(メタデータ) (2024-12-09T18:59:02Z) - UTSD: Unified Time Series Diffusion Model [13.555837288440946]
多領域確率分布をモデル化するために、初めて統一時系列拡散モデルを確立する。
我々は、主要なベンチマークで広範な実験を行い、事前訓練されたUTSDは、すべてのデータドメインにおける既存の基礎モデルより優れています。
論文 参考訳(メタデータ) (2024-12-04T06:42:55Z) - Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation [18.295352638247362]
嗜好ラベルは典型的には、軌跡を識別する端末でのみ利用可能である。
そこで本研究では,中間ステップと端末の復号化分布を明示的に接続する復号化分布推定法を提案する。
我々の手法は定量的にも質的にも優れた性能を達成する。
論文 参考訳(メタデータ) (2024-11-22T11:45:33Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control [25.219524290912048]
オフライン強化学習を2段階最適化問題として定式化する。
まず、報酬のない行動データセットに関する表現的生成ポリシーを事前訓練し、次にこれらのポリシーを微調整して、Q値のようなタスク固有のアノテーションと整合させる。
この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
論文 参考訳(メタデータ) (2024-07-12T06:32:36Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3)
for Visual Robotic Manipulation [5.11432473998551]
Diffusion-EDFsは、視覚ロボット操作タスクのための新しいSE(3)等価拡散に基づくアプローチである。
提案手法は,1時間以内で実効的なエンドツーエンドトレーニングを行うためには,5~10回の人間による実演を必要とせず,顕著なデータ効率を実現する。
論文 参考訳(メタデータ) (2023-09-06T03:42:20Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。