Fugu-MT 論文翻訳(概要): Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control

論文の概要: Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control

arxiv url: http://arxiv.org/abs/2402.15194v2
Date: Wed, 28 Feb 2024 09:21:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:31:48.759609
Title: Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control
Title（参考訳）: エントロピー規則制御による連続時間拡散モデルの微調整
Authors: Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani, Sergey Levine
Abstract要約: 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
参考スコア（独自算出の注目度）: 54.132297393662654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models excel at capturing complex data distributions, such as those of natural images and proteins. While diffusion models are trained to represent the distribution in the training dataset, we often are more concerned with other properties, such as the aesthetic quality of the generated images or the functional properties of generated proteins. Diffusion models can be finetuned in a goal-directed way by maximizing the value of some reward function (e.g., the aesthetic quality of an image). However, these approaches may lead to reduced sample diversity, significant deviations from the training data distribution, and even poor sample quality due to the exploitation of an imperfect reward function. The last issue often occurs when the reward function is a learned model meant to approximate a ground-truth "genuine" reward, as is the case in many practical applications. These challenges, collectively termed "reward collapse," pose a substantial obstacle. To address this reward collapse, we frame the finetuning problem as entropy-regularized control against the pretrained diffusion model, i.e., directly optimizing entropy-enhanced rewards with neural SDEs. We present theoretical and empirical evidence that demonstrates our framework is capable of efficiently generating diverse samples with high genuine rewards, mitigating the overoptimization of imperfect reward models.
Abstract（参考訳）: 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質や生成されたタンパク質の機能的性質といった他の特性により関心を持っている。拡散モデルは、ある報酬関数の値(例えば画像の美的品質)を最大化することにより、ゴール指向の方法で微調整することができる。しかし,これらの手法は,不完全な報酬関数の活用により,サンプルの多様性の低減,トレーニングデータ分布の大幅なずれ,さらにはサンプル品質の低下につながる可能性がある。最後の問題は、多くの実践的応用の場合と同様に、報酬関数が基底の「ゲヌイネ」報酬を近似する学習モデルであるときにしばしば発生する。これらの課題は集合的に「後退崩壊」と呼ばれ、大きな障害となる。この報酬の崩壊に対処するため,我々は,事前学習された拡散モデルに対するエントロピー正規化制御,すなわち神経sdesによるエントロピーエンハンスド報酬の直接最適化として,微調整問題を構成する。提案手法は,不完全報酬モデルの過剰最適化を緩和し,純正報酬の高い多種多様なサンプルを効率的に生成できることを実証する理論的・実証的証拠を示す。

関連論文リスト

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。 KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文参考訳（メタデータ） (2025-07-01T05:55:28Z)
A General Framework for Inference-time Scaling and Steering of Diffusion Models [45.27503904127995]
Feynman-Kac (FK) ステアリングは、報酬関数を持つ拡散モデルをステアリングするための推論時フレームワークである。 FKステアリングは、粒子と呼ばれる複数の相互作用する拡散過程の系をサンプリングし、中間ステップで粒子を再サンプリングすることで機能する。テキスト・ツー・イメージとテキスト拡散モデルを用いたFKステアリングの評価を行った。
論文参考訳（メタデータ） (2025-01-12T15:34:24Z)
Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。 DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文参考訳（メタデータ） (2024-10-17T15:10:13Z)
Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling [10.159932782892865]
生成モデルは、出力が実際のデータと区別できないユニークなしきい値に達した。トレーニングと生成の繰り返しループが発生すると、パフォーマンスの深刻な劣化が観察されている。本稿では,遺伝子変異に触発された簡便かつ効果的な方法として,再利用可能な拡散微細構造(ReDiFine)を提案する。
論文参考訳（メタデータ） (2024-07-04T13:41:54Z)
Feedback Efficient Online Fine-Tuning of Diffusion Models [52.170384048274364]
提案手法は, 実現可能なサンプルの多様体上で効率的に探索できる新しい強化学習手法である。本稿では,3つの領域にまたがる実証的検証とともに,後悔の保証を提供する理論的解析を提案する。
論文参考訳（メタデータ） (2024-02-26T07:24:32Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文参考訳（メタデータ） (2023-04-13T18:22:40Z)
Bi-Noising Diffusion: Towards Conditional Diffusion Models with Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文参考訳（メタデータ） (2022-12-14T17:26:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。