論文の概要: A General Framework for Inference-time Scaling and Steering of Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.06848v1
- Date: Sun, 12 Jan 2025 15:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:35.900641
- Title: A General Framework for Inference-time Scaling and Steering of Diffusion Models
- Title(参考訳): 拡散モデルの推論時間スケーリングとステアリングのための一般的なフレームワーク
- Authors: Raghav Singhal, Zachary Horvitz, Ryan Teehan, Mengye Ren, Zhou Yu, Kathleen McKeown, Rajesh Ranganath,
- Abstract要約: Feynman Kac (FK) ステアリングは、報酬関数を持つ拡散モデルをステアリングするための推論時フレームワークである。
FKステアリングは、粒子と呼ばれる複数の相互作用する拡散過程の系をサンプリングし、中間ステップで粒子を再サンプリングすることで機能する。
テキスト・ツー・イメージとテキスト拡散モデルを用いたFKステアリングの評価を行った。
- 参考スコア(独自算出の注目度): 45.27503904127995
- License:
- Abstract: Diffusion models produce impressive results in modalities ranging from images and video to protein design and text. However, generating samples with user-specified properties remains a challenge. Recent research proposes fine-tuning models to maximize rewards that capture desired properties, but these methods require expensive training and are prone to mode collapse. In this work, we propose Feynman Kac (FK) steering, an inference-time framework for steering diffusion models with reward functions. FK steering works by sampling a system of multiple interacting diffusion processes, called particles, and resampling particles at intermediate steps based on scores computed using functions called potentials. Potentials are defined using rewards for intermediate states and are selected such that a high value indicates that the particle will yield a high-reward sample. We explore various choices of potentials, intermediate rewards, and samplers. We evaluate FK steering on text-to-image and text diffusion models. For steering text-to-image models with a human preference reward, we find that FK steering a 0.8B parameter model outperforms a 2.6B parameter fine-tuned model on prompt fidelity, with faster sampling and no training. For steering text diffusion models with rewards for text quality and specific text attributes, we find that FK steering generates lower perplexity, more linguistically acceptable outputs and enables gradient-free control of attributes like toxicity. Our results demonstrate that inference-time scaling and steering of diffusion models, even with off-the-shelf rewards, can provide significant sample quality gains and controllability benefits. Code is available at https://github.com/zacharyhorvitz/Fk-Diffusion-Steering .
- Abstract(参考訳): 拡散モデルは、画像、ビデオ、タンパク質設計、テキストなど、様々なモダリティにおいて印象的な結果をもたらす。
しかし、ユーザが指定したプロパティでサンプルを生成することは依然として困難である。
近年の研究では、所望のプロパティを捕捉する報酬を最大化するための微調整モデルが提案されているが、これらの方法は高価なトレーニングを必要とし、モード崩壊しがちである。
本研究では,報酬関数を持つ拡散モデルを操作するための推論時フレームワークであるFeynman Kac (FK) ステアリングを提案する。
FKステアリングは、粒子と呼ばれる複数の相互作用する拡散過程の系をサンプリングし、ポテンシャルと呼ばれる関数を用いて計算されたスコアに基づいて中間ステップで粒子を再サンプリングする。
ポテンシャルは中間状態に対する報酬を用いて定義され、高い値が粒子が高逆サンプルを生成することを示すように選択される。
我々は、ポテンシャル、中間報酬、サンプルの様々な選択を探索する。
テキスト・ツー・イメージとテキスト拡散モデルを用いたFKステアリングの評価を行った。
人間の好みの報酬でテキスト・ツー・イメージのモデルを操る場合、FKが0.8Bのパラメータを操り、即時忠実度で2.6Bのパラメータを微調整し、より高速なサンプリングとトレーニングを行わない。
テキスト品質と特定のテキスト属性に対する報酬を伴うテキスト拡散モデルのステアリングでは、FKステアリングが低いパープレキシティ、より言語的に許容できる出力を生成し、毒性などの属性の勾配のない制御を可能にする。
実験結果から,拡散モデルの予測時間スケーリングとステアリングは,市販の報奨を伴っても,かなりの品質向上と制御性向上をもたらすことが示唆された。
コードはhttps://github.com/zacharyhorvitz/Fk-Diffusion-Steeringで入手できる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Feedback Efficient Online Fine-Tuning of Diffusion Models [52.170384048274364]
提案手法は, 実現可能なサンプルの多様体上で効率的に探索できる新しい強化学習手法である。
本稿では,3つの領域にまたがる実証的検証とともに,後悔の保証を提供する理論的解析を提案する。
論文 参考訳(メタデータ) (2024-02-26T07:24:32Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Extracting Reward Functions from Diffusion Models [7.834479563217133]
意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。
本研究では,低逆挙動をモデル化する意思決定拡散モデルと高逆挙動をモデル化するモデルを比較することで,報酬関数を抽出する問題を考察する。
提案手法は,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,シーケンシャルな意思決定を超えて一般化することを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:12Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Understanding Diffusion Models: A Unified Perspective [0.0]
拡散モデルは生成モデルとして素晴らしい能力を示している。
変動的視点と得点的視点の両方にわたる拡散モデルの理解をレビューし、デミスティフィケートし、統一する。
論文 参考訳(メタデータ) (2022-08-25T09:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。