論文の概要: TR2-D2: Tree Search Guided Trajectory-Aware Fine-Tuning for Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2509.25171v1
- Date: Mon, 29 Sep 2025 17:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.147356
- Title: TR2-D2: Tree Search Guided Trajectory-Aware Fine-Tuning for Discrete Diffusion
- Title(参考訳): TR2-D2:木探索ガイドを用いた離散拡散のための微調整
- Authors: Sophia Tang, Yuchen Zhu, Molei Tao, Pranam Chatterjee,
- Abstract要約: TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2)
本稿では,Tree Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2)を紹介した。
これらのバッファはモンテカルロ木探索(MCTS)を用いて生成され、その後、最適制御目的の下で事前学習された離散拡散モデルを微調整するために使用される。
- 参考スコア(独自算出の注目度): 22.34876457522286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with stochastic optimal control offers a promising framework for diffusion fine-tuning, where a pre-trained diffusion model is optimized to generate paths that lead to a reward-tilted distribution. While these approaches enable optimization without access to explicit samples from the optimal distribution, they require training on rollouts under the current fine-tuned model, making them susceptible to reinforcing sub-optimal trajectories that yield poor rewards. To overcome this challenge, we introduce TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), a novel framework that optimizes reward-guided discrete diffusion trajectories with tree search to construct replay buffers for trajectory-aware fine-tuning. These buffers are generated using Monte Carlo Tree Search (MCTS) and subsequently used to fine-tune a pre-trained discrete diffusion model under a stochastic optimal control objective. We validate our framework on single- and multi-objective fine-tuning of biological sequence diffusion models, highlighting the overall effectiveness of TR2-D2 for reliable reward-guided fine-tuning in discrete sequence generation.
- Abstract(参考訳): 確率的最適制御による強化学習は拡散微調整のための有望なフレームワークを提供する。
これらのアプローチは最適な分布から明示的なサンプルにアクセスすることなく最適化を可能にするが、現在の微調整モデルの下でのロールアウトのトレーニングが必要であり、報酬の少ない準最適軌道の強化に敏感である。
この課題を解決するために,TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2)を導入した。
これらのバッファはモンテカルロ木探索 (MCTS) を用いて生成され、その後確率的最適制御目標の下で事前学習された離散拡散モデルを微調整するために使用される。
我々は,生物配列拡散モデルの単一・多目的微調整に関する枠組みを検証し,TR2-D2の連続配列生成における信頼性の高い報酬誘導微調整に対する総合的な有効性を強調した。
関連論文リスト
- Training-Free Stein Diffusion Guidance: Posterior Correction for Sampling Beyond High-Density Regions [46.59494117137471]
自由拡散誘導の訓練は、追加の訓練なしに既成の分類器を活用する柔軟な方法を提供する。
本稿では,SOC を対象とする新たなトレーニングフリーフレームワークである Stein Diffusion Guidance (SDG) を紹介する。
分子低密度サンプリングタスクの実験は、SDGが標準のトレーニングフリーガイダンス手法を一貫して上回っていることを示唆している。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T11:07:35Z) - Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z) - Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。
最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。
提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文 参考訳(メタデータ) (2024-08-01T17:59:59Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。