Fugu-MT 論文翻訳(概要): Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review

論文の概要: Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review

arxiv url: http://arxiv.org/abs/2407.13734v1
Date: Thu, 18 Jul 2024 17:35:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:21:47.886441
Title: Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review
Title（参考訳）: 強化学習に基づく拡散モデルの微調整を理解する:チュートリアルとレビュー
Authors: Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, Sergey Levine,
Abstract要約: このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
参考スコア（独自算出の注目度）: 63.31328039424469
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This tutorial provides a comprehensive survey of methods for fine-tuning diffusion models to optimize downstream reward functions. While diffusion models are widely known to provide excellent generative modeling capability, practical applications in domains such as biology require generating samples that maximize some desired metric (e.g., translation efficiency in RNA, docking score in molecules, stability in protein). In these cases, the diffusion model can be optimized not only to generate realistic samples but also to explicitly maximize the measure of interest. Such methods are based on concepts from reinforcement learning (RL). We explain the application of various RL algorithms, including PPO, differentiable optimization, reward-weighted MLE, value-weighted sampling, and path consistency learning, tailored specifically for fine-tuning diffusion models. We aim to explore fundamental aspects such as the strengths and limitations of different RL-based fine-tuning algorithms across various scenarios, the benefits of RL-based fine-tuning compared to non-RL-based approaches, and the formal objectives of RL-based fine-tuning (target distributions). Additionally, we aim to examine their connections with related topics such as classifier guidance, Gflownets, flow-based diffusion models, path integral control theory, and sampling from unnormalized distributions such as MCMC. The code of this tutorial is available at https://github.com/masa-ue/RLfinetuning_Diffusion_Bioseq
Abstract（参考訳）: このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。拡散モデルは優れた生成的モデリング能力を提供するために広く知られているが、生物学のような領域における実践的な応用には、所望の計量を最大化するサンプルを生成する必要がある(例えば、RNAの翻訳効率、分子のドッキングスコア、タンパク質の安定性)。これらの場合、拡散モデルは現実的なサンプルを生成するだけでなく、興味の測度を明示的に最大化するために最適化することができる。このような手法は強化学習(RL)の概念に基づいている。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。本研究の目的は,RLに基づく様々な微調整アルゴリズムの強みと限界,RLに基づく微調整の利点と非RLに基づくアプローチ,RLに基づく微調整(ターゲット分布)の形式的目的などの基本的側面を検討することである。さらに,分類器ガイダンスやGflownet,フローベース拡散モデル,経路積分制御理論,MCMCなどの非正規分布からのサンプリングなど,関連するトピックとの関連性を検討することを目的とする。このチュートリアルのコードはhttps://github.com/masa-ue/RLfinetuning_Diffusion_Bioseqで公開されている。

関連論文リスト

Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。 RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文参考訳（メタデータ） (2025-08-28T17:18:31Z)
Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T21:14:27Z)
Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。 KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文参考訳（メタデータ） (2025-07-01T05:55:28Z)
Efficient Controllable Diffusion via Optimal Classifier Guidance [16.748525985158278]
制御可能な拡散モデルの生成は、与えられた目的関数を最適化するサンプルを生成するためにモデルを操ることを目的としている。 SLCD -- Supervised Learning based Controllable Diffusionを提案する。
論文参考訳（メタデータ） (2025-05-27T18:46:21Z)
Scalable Discrete Diffusion Samplers: Combinatorial Optimization and Statistical Physics [7.873510219469276]
離散拡散サンプリングのための2つの新しいトレーニング手法を提案する。これらの手法は、メモリ効率のトレーニングを行い、教師なし最適化の最先端結果を達成する。 SN-NISとニューラルチェインモンテカルロの適応を導入し,離散拡散モデルの適用を初めて可能とした。
論文参考訳（メタデータ） (2025-02-12T18:59:55Z)
Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review [59.856222854472605]
このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
論文参考訳（メタデータ） (2025-01-16T17:37:35Z)
Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文参考訳（メタデータ） (2024-09-07T13:55:45Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling [2.1779479916071067]
より広い範囲のプロセスをサポートすることで拡散モデルを強化する新しいフレームワークを提案する。また,前処理を学習するための新しいパラメータ化手法を提案する。結果はNFDMの汎用性と幅広い応用の可能性を評価する。
論文参考訳（メタデータ） (2024-04-19T15:10:54Z)
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文参考訳（メタデータ） (2024-04-11T14:07:25Z)
Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-07T18:51:49Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。 RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。 3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-14T13:51:26Z)
ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of Arbitrary Predictive Models [6.939617874336667]
本稿では,最適対実的説明を生成するためのモデルに依存しないアルゴリズムを提案する。本手法は,DRLエージェントが相互作用する環境に類似するため,任意のブラックボックスモデルに容易に適用できる。さらに,DRLエージェントのポリシーから説明可能な決定ルールを抽出し,CF自体を透過的に生成するアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-10-22T17:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。