論文の概要: Learn to Guide Your Diffusion Model
- arxiv url: http://arxiv.org/abs/2510.00815v1
- Date: Wed, 01 Oct 2025 12:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.549628
- Title: Learn to Guide Your Diffusion Model
- Title(参考訳): 拡散モデルをガイドする方法を学ぶ
- Authors: Alexandre Galashov, Ashwini Pokle, Arnaud Doucet, Arthur Gretton, Mauricio Delbracio, Valentin De Bortoli,
- Abstract要約: 本研究では,条件付き拡散モデルによる試料の品質向上手法について検討する。
誘導ウェイトは$omega_c,(s,t)$で、条件付き$c$、飾る時間$t$、飾る時間$s$の関数です。
我々は,モデルが報酬関数によって傾いた分布を目標にすることができるように,フレームワークを拡張して報酬付きサンプリングを行う。
- 参考スコア(独自算出の注目度): 84.82855046749657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-free guidance (CFG) is a widely used technique for improving the perceptual quality of samples from conditional diffusion models. It operates by linearly combining conditional and unconditional score estimates using a guidance weight $\omega$. While a large, static weight can markedly improve visual results, this often comes at the cost of poorer distributional alignment. In order to better approximate the target conditional distribution, we instead learn guidance weights $\omega_{c,(s,t)}$, which are continuous functions of the conditioning $c$, the time $t$ from which we denoise, and the time $s$ towards which we denoise. We achieve this by minimizing the distributional mismatch between noised samples from the true conditional distribution and samples from the guided diffusion process. We extend our framework to reward guided sampling, enabling the model to target distributions tilted by a reward function $R(x_0,c)$, defined on clean data and a conditioning $c$. We demonstrate the effectiveness of our methodology on low-dimensional toy examples and high-dimensional image settings, where we observe improvements in Fr\'echet inception distance (FID) for image generation. In text-to-image applications, we observe that employing a reward function given by the CLIP score leads to guidance weights that improve image-prompt alignment.
- Abstract(参考訳): 分類器フリーガイダンス (CFG) は, 条件付き拡散モデルから試料の知覚的品質を向上させる手法として広く用いられている。
誘導重量$\omega$を使って条件付きスコアと条件なしスコアの見積もりを線形に組み合わせて動作する。
大きくて静的な重みは視覚的な結果を著しく改善するが、これはしばしば、より分散的なアライメントの悪いコストが伴う。
目標条件分布をよりよく近似するために、条件付き$c$の連続関数である誘導重み$\omega_{c,(s,t)}$を学習する。
本研究では,真の条件分布からのノイズサンプルと誘導拡散過程からのサンプルとの分布ミスマッチを最小化する。
クリーンデータと条件付き$c$で定義された報奨関数$R(x_0,c)$で傾いた分布を対象とする。
提案手法が低次元玩具の例と高次元画像設定において有効であることを示し,Fr'echet開始距離(FID)の改善を観察した。
テキスト・ツー・イメージのアプリケーションでは、CLIPスコアの報酬関数を利用することで、画像のプロンプトアライメントを改善するためのガイダンスウェイトが導かれる。
関連論文リスト
- Diffusion Tree Sampling: Scalable inference-time alignment of diffusion models [13.312007032203857]
事前訓練された拡散モデルを推論時に新しい目的に適応させることは、生成的モデリングにおいて未解決の問題である。
そこで本研究では,終末報酬を拡散連鎖を通じて伝播させることにより,報奨目標密度から抽出するツリーベースアプローチを提案する。
以前の世代からの情報を再利用することで、任意のアルゴリズムが追加の計算を着実により良いサンプルに変換する。
論文 参考訳(メタデータ) (2025-06-25T17:59:10Z) - Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance [19.83064246586143]
CFGは条件付きおよび非条件付きデノイザの出力を線形に結合することにより条件付き拡散モデルを改善する手法である。
CFGは視覚的品質を高め、プロンプトとの整合性を向上させるが、しばしばサンプルの多様性を低下させる。
所望の傾斜分布からサンプルを抽出するギブスライクなサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T12:27:33Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Deep Residual Flow for Out of Distribution Detection [27.218308616245164]
本稿では,正規化フローに基づく表現密度モデルを活用することにより,最先端技術を改善する新しい手法を提案する。
本稿では,ResNet および DenseNet アーキテクチャにおける提案手法の有効性について述べる。
論文 参考訳(メタデータ) (2020-01-15T16:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。