論文の概要: Bring Metric Functions into Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.02414v1
- Date: Thu, 4 Jan 2024 18:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:23:00.488498
- Title: Bring Metric Functions into Diffusion Models
- Title(参考訳): 拡散モデルにメトリック関数をもたらす
- Authors: Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan
Wang, Jiebo Luo
- Abstract要約: DDPM(Denoising Diffusion Probabilistic Model)を改善するカスケード拡散モデル(Cas-DM)を導入する。
提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,最先端画像品質(FID, sFID, IS)を実現する。
実験結果から,提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,最新画像品質(FID, sFID, IS)につながることが示された。
- 参考スコア(独自算出の注目度): 145.71911023514252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Cascaded Diffusion Model (Cas-DM) that improves a Denoising
Diffusion Probabilistic Model (DDPM) by effectively incorporating additional
metric functions in training. Metric functions such as the LPIPS loss have been
proven highly effective in consistency models derived from the score matching.
However, for the diffusion counterparts, the methodology and efficacy of adding
extra metric functions remain unclear. One major challenge is the mismatch
between the noise predicted by a DDPM at each step and the desired clean image
that the metric function works well on. To address this problem, we propose
Cas-DM, a network architecture that cascades two network modules to effectively
apply metric functions to the diffusion model training. The first module,
similar to a standard DDPM, learns to predict the added noise and is unaffected
by the metric function. The second cascaded module learns to predict the clean
image, thereby facilitating the metric function computation. Experiment results
show that the proposed diffusion model backbone enables the effective use of
the LPIPS loss, leading to state-of-the-art image quality (FID, sFID, IS) on
various established benchmarks.
- Abstract(参考訳): 本稿では, DPM(Denoising Diffusion Probabilistic Model)の改良を目的としたCascaded Diffusion Model(Cas-DM)を提案する。
LPIPS損失のようなメトリック関数は、スコアマッチングから導出される一貫性モデルにおいて非常に有効であることが証明されている。
しかし、拡散対について、余剰計量関数を加える方法と有効性は未だ不明である。
1つの大きな課題は、各ステップでDDPMによって予測されるノイズと、計量関数がうまく機能する所望のクリーンイメージとのミスマッチである。
この問題に対処するために,拡散モデルトレーニングにメトリック関数を効果的に適用するために2つのネットワークモジュールをカスケードするネットワークアーキテクチャであるCas-DMを提案する。
最初のモジュールは標準DDPMに似ているが、加算された雑音を予測し、計量関数の影響を受けない。
第2のカスケードモジュールはクリーンな画像を予測し、メトリック関数計算を容易にする。
実験結果から,提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,様々なベンチマークで最先端画像品質(FID, sFID, IS)が得られた。
関連論文リスト
- The Missing U for Efficient Diffusion Models [3.8983468222277686]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of
Diffusion Probabilistic Models [136.58244210412352]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。
ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。
プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文 参考訳(メタデータ) (2023-02-18T13:25:04Z) - Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。
本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。
位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文 参考訳(メタデータ) (2022-06-22T07:00:39Z) - Real-time automatic polyp detection in colonoscopy using feature
enhancement module and spatiotemporal similarity correlation unit [34.28382404976628]
畳み込みニューラルネットワーク(CNN)に基づく最先端手法
本手法は,2次元CNNを用いたリアルタイム物体検出ネットワークと時間情報を組み合わせる。
本手法は感度,精度,特異性を向上し,臨床大腸内視鏡に応用できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-25T03:40:30Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。
我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文 参考訳(メタデータ) (2020-12-30T14:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。