論文の概要: Preference-Based Alignment of Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08295v2
- Date: Wed, 09 Apr 2025 14:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:04:37.393602
- Title: Preference-Based Alignment of Discrete Diffusion Models
- Title(参考訳): 離散拡散モデルの優先度に基づくアライメント
- Authors: Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel,
- Abstract要約: 連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
- 参考スコア(独自算出の注目度): 14.874943508610857
- License:
- Abstract: Diffusion models have achieved state-of-the-art performance across multiple domains, with recent advancements extending their applicability to discrete data. However, aligning discrete diffusion models with task-specific preferences remains challenging, particularly in scenarios where explicit reward functions are unavailable. In this work, we introduce Discrete Diffusion DPO (D2-DPO), the first adaptation of Direct Preference Optimization (DPO) to discrete diffusion models formulated as continuous-time Markov chains. Our approach derives a novel loss function that directly fine-tunes the generative process using preference data while preserving fidelity to a reference distribution. We validate D2-DPO on a structured binary sequence generation task, demonstrating that the method effectively aligns model outputs with preferences while maintaining structural validity. Our results highlight that D2-DPO enables controlled fine-tuning without requiring explicit reward models, making it a practical alternative to reinforcement learning-based approaches. Future research will explore extending D2-DPO to more complex generative tasks, including language modeling and protein sequence generation, as well as investigating alternative noise schedules, such as uniform noising, to enhance flexibility across different applications.
- Abstract(参考訳): 拡散モデルは複数の領域にまたがって最先端のパフォーマンスを達成しており、最近の進歩は個々のデータに適用性を広げている。
しかし、特に明示的な報酬関数が利用できないシナリオでは、個別の拡散モデルとタスク固有の嗜好を一致させることは依然として困難である。
本稿では、連続時間マルコフ連鎖として定式化された離散拡散モデルへの直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を紹介する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
本研究では,D2-DPOを構造的バイナリシーケンス生成タスクで検証し,構造的妥当性を維持しつつ,モデル出力と好みを効果的に一致させることを示した。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
今後の研究では、言語モデリングやタンパク質配列生成など、より複雑な生成タスクにD2-DPOを拡張し、また、異なるアプリケーション間の柔軟性を高めるために、一様ノイズ化などの代替ノイズスケジュールを調査する予定である。
関連論文リスト
- Diverse Score Distillation [27.790458964072823]
ランダムな初期シードによって定義された生成経路に従うよう最適化するスコアの定式化を提案する。
本稿では,2次元最適化,テキストベースの3D推論,単一ビュー再構成などのタスクにまたがるDSD(Diverse Score Distillation)の応用について紹介する。
論文 参考訳(メタデータ) (2024-12-09T18:59:02Z) - UTSD: Unified Time Series Diffusion Model [13.555837288440946]
多領域確率分布をモデル化するために、初めて統一時系列拡散モデルを確立する。
我々は、主要なベンチマークで広範な実験を行い、事前訓練されたUTSDは、すべてのデータドメインにおける既存の基礎モデルより優れています。
論文 参考訳(メタデータ) (2024-12-04T06:42:55Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。