論文の概要: Feedback Efficient Online Fine-Tuning of Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.16359v2
- Date: Tue, 27 Feb 2024 18:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 13:04:46.548853
- Title: Feedback Efficient Online Fine-Tuning of Diffusion Models
- Title(参考訳): 拡散モデルの効率的なオンライン微調整
- Authors: Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali,
Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Sergey Levine, Tommaso
Biancalani
- Abstract要約: 提案手法は, 実現可能なサンプルの多様体上で効率的に探索できる新しい強化学習手法である。
本稿では,3つの領域にまたがる実証的検証とともに,後悔の保証を提供する理論的解析を提案する。
- 参考スコア(独自算出の注目度): 54.132297393662654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel at modeling complex data distributions, including
those of images, proteins, and small molecules. However, in many cases, our
goal is to model parts of the distribution that maximize certain properties:
for example, we may want to generate images with high aesthetic quality, or
molecules with high bioactivity. It is natural to frame this as a reinforcement
learning (RL) problem, in which the objective is to fine-tune a diffusion model
to maximize a reward function that corresponds to some property. Even with
access to online queries of the ground-truth reward function, efficiently
discovering high-reward samples can be challenging: they might have a low
probability in the initial distribution, and there might be many infeasible
samples that do not even have a well-defined reward (e.g., unnatural images or
physically impossible molecules). In this work, we propose a novel
reinforcement learning procedure that efficiently explores on the manifold of
feasible samples. We present a theoretical analysis providing a regret
guarantee, as well as empirical validation across three domains: images,
biological sequences, and molecules.
- Abstract(参考訳): 拡散モデルは、画像、タンパク質、小さな分子を含む複雑なデータ分布のモデル化に優れている。
しかし、多くの場合、我々の目標は特定の特性を最大化する分布の一部をモデル化することである。例えば、高い美的品質のイメージや、高い生体活性を持つ分子を生成したいかもしれない。
これを強化学習(RL)問題とみなすことは自然であり、ある性質に対応する報酬関数を最大化するために拡散モデルを微調整することが目的である。
地道的な報酬関数のオンラインクエリにアクセスしても、効率的な高次サンプルの発見は困難であり、それらは初期分布の確率が低く、十分に定義されていない報酬(例えば、不自然な画像や物理的に不可能な分子)さえ持たない多くの実用不可能なサンプルが存在する可能性がある。
本研究では,実行可能なサンプルの多様体上で効率的に探索する新しい強化学習手法を提案する。
我々は,後悔の保証と,画像,生物配列,分子の3領域にわたる実証的検証を提供する理論的解析を行う。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Variational Autoencoding Molecular Graphs with Denoising Diffusion
Probabilistic Model [0.0]
本稿では,階層構造を確率論的潜在ベクトルに組み込んだ新しい深層生成モデルを提案する。
本モデルは,物理特性と活性に関する小さなデータセットを用いて,分子特性予測のための有効な分子潜在ベクトルを設計できることを実証する。
論文 参考訳(メタデータ) (2023-07-02T17:29:41Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。