論文の概要: Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design
- arxiv url: http://arxiv.org/abs/2507.00445v1
- Date: Tue, 01 Jul 2025 05:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.351508
- Title: Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design
- Title(参考訳): 生体分子設計における逆ガイド法による拡散モデルの反復蒸留
- Authors: Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao, Gabriele Scalia, Ehsan Hajiramezanali, Tommaso Biancalani, Degui Zhi, Shuiwang Ji,
- Abstract要約: 生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 53.93023688824764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of fine-tuning diffusion models for reward-guided generation in biomolecular design. While diffusion models have proven highly effective in modeling complex, high-dimensional data distributions, real-world applications often demand more than high-fidelity generation, requiring optimization with respect to potentially non-differentiable reward functions such as physics-based simulation or rewards based on scientific knowledge. Although RL methods have been explored to fine-tune diffusion models for such objectives, they often suffer from instability, low sample efficiency, and mode collapse due to their on-policy nature. In this work, we propose an iterative distillation-based fine-tuning framework that enables diffusion models to optimize for arbitrary reward functions. Our method casts the problem as policy distillation: it collects off-policy data during the roll-in phase, simulates reward-based soft-optimal policies during roll-out, and updates the model by minimizing the KL divergence between the simulated soft-optimal policy and the current model policy. Our off-policy formulation, combined with KL divergence minimization, enhances training stability and sample efficiency compared to existing RL-based methods. Empirical results demonstrate the effectiveness and superior reward optimization of our approach across diverse tasks in protein, small molecule, and regulatory DNA design.
- Abstract(参考訳): 生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
拡散モデルは複雑で高次元のデータ分布をモデル化するのに非常に効果的であることが証明されているが、現実のアプリケーションはしばしば高忠実性生成以上のものを必要とし、物理学に基づくシミュレーションや科学知識に基づく報酬のような潜在的に微分不可能な報酬関数に対して最適化を必要とする。
このような目的のためにRL法は微調整拡散モデルとして研究されてきたが、しばしば不安定性、サンプル効率の低さ、およびモード崩壊に悩まされる。
本研究では, 拡散モデルによる任意の報酬関数の最適化を可能にする, 反復蒸留に基づく微調整フレームワークを提案する。
本手法は,ロールイン期間中のオフ・ポリシーデータを収集し,ロールアウト時に報酬ベースのソフト・最適ポリシーをシミュレートし,シミュレーションされたソフト・最適ポリシーと現在のモデルポリシーとのKL分散を最小化してモデルを更新する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
実験により,タンパク質,小分子,制御DNA設計における多種多様なタスクに対するアプローチの有効性と報奨の最適化が実証された。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。
複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文 参考訳(メタデータ) (2025-02-03T14:20:19Z) - TAUDiff: Highly efficient kilometer-scale downscaling using generative diffusion models [0.0]
急激なターンアラウンド、ダイナミックな一貫性、極端な気象イベントの正確な時間的回復を達成することが不可欠である。
本稿では, 平均フィールドダウンスケーリングにおける決定論的時間モデルと, より小さな生成的拡散モデルを組み合わせて, 微細な特徴を再現する効率的な拡散モデルTAUDiffを提案する。
当社のアプローチは、関連するリスクや経済損失を見積もるために必要となる極端な事象を、より迅速にシミュレーションすることができる。
論文 参考訳(メタデータ) (2024-12-18T09:05:19Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。