論文の概要: Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review
- arxiv url: http://arxiv.org/abs/2501.09685v2
- Date: Mon, 20 Jan 2025 22:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:36.831186
- Title: Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review
- Title(参考訳): Reward-Guided Generation を用いた拡散モデルにおける推定時間アライメント:チュートリアルとレビュー
- Authors: Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev, Sergey Levine, Tommaso Biancalani,
- Abstract要約: このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。
生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。
本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
- 参考スコア(独自算出の注目度): 59.856222854472605
- License:
- Abstract: This tutorial provides an in-depth guide on inference-time guidance and alignment methods for optimizing downstream reward functions in diffusion models. While diffusion models are renowned for their generative modeling capabilities, practical applications in fields such as biology often require sample generation that maximizes specific metrics (e.g., stability, affinity in proteins, closeness to target structures). In these scenarios, diffusion models can be adapted not only to generate realistic samples but also to explicitly maximize desired measures at inference time without fine-tuning. This tutorial explores the foundational aspects of such inference-time algorithms. We review these methods from a unified perspective, demonstrating that current techniques -- such as Sequential Monte Carlo (SMC)-based guidance, value-based sampling, and classifier guidance -- aim to approximate soft optimal denoising processes (a.k.a. policies in RL) that combine pre-trained denoising processes with value functions serving as look-ahead functions that predict from intermediate states to terminal rewards. Within this framework, we present several novel algorithms not yet covered in the literature. Furthermore, we discuss (1) fine-tuning methods combined with inference-time techniques, (2) inference-time algorithms based on search algorithms such as Monte Carlo tree search, which have received limited attention in current research, and (3) connections between inference-time algorithms in language models and diffusion models. The code of this tutorial on protein design is available at https://github.com/masa-ue/AlignInversePro
- Abstract(参考訳): このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。
拡散モデルは生成的モデリング能力で有名であるが、生物学などの分野における実践的応用は、特定の指標(例えば、タンパク質の安定性、親和性、標的構造への近接性)を最大化するサンプル生成を必要とすることが多い。
これらのシナリオでは、拡散モデルは現実的なサンプルを生成するだけでなく、微調整なしで推論時に望ましい測度を明示的に最大化するために適応することができる。
本チュートリアルでは,このような推論時間アルゴリズムの基礎的側面について考察する。
我々はこれらの手法を統一的な視点からレビューし、現在の手法であるシークエンシャルモンテカルロ法(SMC)に基づくガイダンス、値に基づくサンプリング、分類法ガイダンスは、事前学習された復調過程と、中間状態から終端報酬まで予測されるルックアヘッド関数として機能する値関数とを組み合わせた、ソフトな最適な復調過程(RLのポリシー)を近似することを目指している。
この枠組みでは、まだ文献に載っていないいくつかの新しいアルゴリズムを提示する。
さらに,(1)推論時手法と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの関連について論じる。
このタンパク質設計のチュートリアルのコードはhttps://github.com/masa-ue/AlignInverseProで公開されている。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - Sparse Algorithms for Markovian Gaussian Processes [18.999495374836584]
スパースマルコフ過程は、誘導変数の使用と効率的なカルマンフィルタライク再帰を結合する。
我々は,局所ガウス項を用いて非ガウス的確率を近似する一般的なサイトベースアプローチであるsitesを導出する。
提案手法は,変動推論,期待伝播,古典非線形カルマンスムーサなど,機械学習と信号処理の両方から得られるアルゴリズムの新たなスパース拡張の一群を導出する。
派生した方法は、モデルが時間と空間の両方で別々の誘導点を持つ文学時間データに適しています。
論文 参考訳(メタデータ) (2021-03-19T09:50:53Z) - Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie [13.476505672245603]
本稿では,ベイズ推定を事前に行うための理論,方法,および証明可能な収束アルゴリズムを開発する。
モンテカルロサンプリングとMMSEに対する-ULA(Unadjusted Langevin)アルゴリズム推論と、推論のための定量的SGD(Stochastic Gradient Descent)の2つのアルゴリズムを紹介します。
このアルゴリズムは、点推定や不確実性の可視化や規則性に使用される画像のノイズ除去、インペインティング、ノイズ除去などのいくつかの問題で実証されています。
論文 参考訳(メタデータ) (2021-03-08T12:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。