論文の概要: Discrete Diffusion Trajectory Alignment via Stepwise Decomposition
- arxiv url: http://arxiv.org/abs/2507.04832v1
- Date: Mon, 07 Jul 2025 09:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.367992
- Title: Discrete Diffusion Trajectory Alignment via Stepwise Decomposition
- Title(参考訳): ステップワイズ分解による離散拡散軌道アライメント
- Authors: Jiaqi Han, Austin Wang, Minkai Xu, Wenda Chu, Meihua Dang, Yisong Yue, Stefano Ermon,
- Abstract要約: マスク付き離散拡散モデルに対する新しい選好最適化法を提案する。
最終的な出力に報酬を適用し、離散化プロセス全体への勾配をバックプロパゲートする代わりに、問題を段階的にアライメントする目的のセットに分解する。
DNA配列設計、タンパク質の逆フォールディング、言語モデリングを含む複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
- 参考スコア(独自算出の注目度): 70.9024656666945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models have demonstrated great promise in modeling various sequence data, ranging from human language to biological sequences. Inspired by the success of RL in language models, there is growing interest in further improving the models by alignment with a certain reward. In this work, we propose a novel preference optimization method for masked discrete diffusion models through a principled diffusion trajectory alignment. Instead of applying the reward on the final output and backpropagating the gradient to the entire discrete denoising process, we decompose the problem into a set of stepwise alignment objectives. This framework enables efficient diffusion optimization, is compatible with arbitrary reward functions, and importantly, guarantees an equivalent optimal solution under additive factorization of the trajectory reward. Experiments across multiple domains including DNA sequence design, protein inverse folding, and language modeling consistently demonstrate the superiority of our approach. Notably, it achieves an up to 12\% improvement over the most competitive RL-based baseline in terms of predicted activity on DNA sequence design, and further improves the GSM8K score from 78.6 to 80.7 on LLaDA-8B-Instruct for language modeling.
- Abstract(参考訳): 離散拡散モデルは、人間の言語から生物学的配列まで、様々なシーケンスデータをモデル化する際の大きな可能性を証明している。
言語モデルにおけるRLの成功にインスパイアされたRLは、特定の報酬に合わせてモデルをさらに改善することへの関心が高まっている。
そこで本研究では,原理的拡散軌道アライメントによるマスク付き離散拡散モデルの新しい選好最適化法を提案する。
最終的な出力に報酬を適用し、離散化プロセス全体への勾配をバックプロパゲートする代わりに、問題を段階的にアライメントする目的のセットに分解する。
このフレームワークは効率的な拡散最適化を可能にし、任意の報酬関数と互換性があり、重要なことに、軌道報酬の加法的分解の下で等価な最適解を保証する。
DNA配列設計、タンパク質逆フォールディング、言語モデリングなど、複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
また、LLaDA-8B-InstructのGSM8Kスコアを78.6から80.7に改善している。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。