論文の概要: Diffusion Model with Perceptual Loss
- arxiv url: http://arxiv.org/abs/2401.00110v5
- Date: Wed, 6 Mar 2024 20:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:17:22.235179
- Title: Diffusion Model with Perceptual Loss
- Title(参考訳): 知覚損失を伴う拡散モデル
- Authors: Shanchuan Lin, Xiao Yang
- Abstract要約: 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。
分類者なし指導の有効性は、暗黙的な知覚誘導の一形態である事からもたらされる。
そこで本研究では,より現実的なサンプルを生成可能な拡散モデルを実現するための,新たな自己知覚的目標を提案する。
- 参考スコア(独自算出の注目度): 4.67483805599143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models trained with mean squared error loss tend to generate
unrealistic samples. Current state-of-the-art models rely on classifier-free
guidance to improve sample quality, yet its surprising effectiveness is not
fully understood. In this paper, we show that the effectiveness of
classifier-free guidance partly originates from it being a form of implicit
perceptual guidance. As a result, we can directly incorporate perceptual loss
in diffusion training to improve sample quality. Since the score matching
objective used in diffusion training strongly resembles the denoising
autoencoder objective used in unsupervised training of perceptual networks, the
diffusion model itself is a perceptual network and can be used to generate
meaningful perceptual loss. We propose a novel self-perceptual objective that
results in diffusion models capable of generating more realistic samples. For
conditional generation, our method only improves sample quality without
entanglement with the conditional input and therefore does not sacrifice sample
diversity. Our method can also improve sample quality for unconditional
generation, which was not possible with classifier-free guidance before.
- Abstract(参考訳): 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。
現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。
本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。
その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。
拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。
そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。
条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。
また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。
関連論文リスト
- Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Fair Sampling in Diffusion Models through Switching Mechanism [4.990206466948269]
本研究では,拡散モデルに対するテクスタトリビュートスイッチング機構という,公平性を考慮したサンプリング手法を提案する。
提案手法の有効性を2つの重要な側面から数学的に証明し,実験的に実証する。
論文 参考訳(メタデータ) (2024-01-06T06:55:26Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文 参考訳(メタデータ) (2022-12-22T16:35:42Z) - Classifier-Free Diffusion Guidance [17.355749359987648]
誘導法は条件付き拡散モデルにおけるモードカバレッジとサンプル忠実度をトレードオフする手法として最近導入された。
このような分類器を使わずに、純粋な生成モデルによってガイダンスを実際に実行できることが示される。
結果の条件と非条件のスコアの見積もりを組み合わせることで、サンプルの品質と多様性のトレードオフを達成します。
論文 参考訳(メタデータ) (2022-07-26T01:42:07Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Improved Denoising Diffusion Probabilistic Models [4.919647298882951]
その結果,ddpmは高いサンプル品質を維持しつつ,競合的なログライク性を達成できることがわかった。
また,逆拡散過程の学習分散により,フォワードパスが桁違いに小さくサンプリングできることがわかった。
これらのモデルのサンプルの品質と可能性について,モデルのキャパシティとトレーニング計算でスムーズに拡張できることを示し,スケーラビリティを向上する。
論文 参考訳(メタデータ) (2021-02-18T23:44:17Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。