論文の概要: Bring Metric Functions into Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.02414v1
- Date: Thu, 4 Jan 2024 18:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:23:00.488498
- Title: Bring Metric Functions into Diffusion Models
- Title(参考訳): 拡散モデルにメトリック関数をもたらす
- Authors: Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan
Wang, Jiebo Luo
- Abstract要約: DDPM(Denoising Diffusion Probabilistic Model)を改善するカスケード拡散モデル(Cas-DM)を導入する。
提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,最先端画像品質(FID, sFID, IS)を実現する。
実験結果から,提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,最新画像品質(FID, sFID, IS)につながることが示された。
- 参考スコア(独自算出の注目度): 145.71911023514252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Cascaded Diffusion Model (Cas-DM) that improves a Denoising
Diffusion Probabilistic Model (DDPM) by effectively incorporating additional
metric functions in training. Metric functions such as the LPIPS loss have been
proven highly effective in consistency models derived from the score matching.
However, for the diffusion counterparts, the methodology and efficacy of adding
extra metric functions remain unclear. One major challenge is the mismatch
between the noise predicted by a DDPM at each step and the desired clean image
that the metric function works well on. To address this problem, we propose
Cas-DM, a network architecture that cascades two network modules to effectively
apply metric functions to the diffusion model training. The first module,
similar to a standard DDPM, learns to predict the added noise and is unaffected
by the metric function. The second cascaded module learns to predict the clean
image, thereby facilitating the metric function computation. Experiment results
show that the proposed diffusion model backbone enables the effective use of
the LPIPS loss, leading to state-of-the-art image quality (FID, sFID, IS) on
various established benchmarks.
- Abstract(参考訳): 本稿では, DPM(Denoising Diffusion Probabilistic Model)の改良を目的としたCascaded Diffusion Model(Cas-DM)を提案する。
LPIPS損失のようなメトリック関数は、スコアマッチングから導出される一貫性モデルにおいて非常に有効であることが証明されている。
しかし、拡散対について、余剰計量関数を加える方法と有効性は未だ不明である。
1つの大きな課題は、各ステップでDDPMによって予測されるノイズと、計量関数がうまく機能する所望のクリーンイメージとのミスマッチである。
この問題に対処するために,拡散モデルトレーニングにメトリック関数を効果的に適用するために2つのネットワークモジュールをカスケードするネットワークアーキテクチャであるCas-DMを提案する。
最初のモジュールは標準DDPMに似ているが、加算された雑音を予測し、計量関数の影響を受けない。
第2のカスケードモジュールはクリーンな画像を予測し、メトリック関数計算を容易にする。
実験結果から,提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,様々なベンチマークで最先端画像品質(FID, sFID, IS)が得られた。
関連論文リスト
- Bring the Power of Diffusion Model to Defect Detection [0.0]
拡散確率モデル(DDPM)は,特徴リポジトリとして構築する認知過程の特徴を抽出するために事前訓練される。
待ち行列特徴を再構成してフィルタして高次元DDPM特徴を得る。
実験結果から,本手法はいくつかの産業データセット上での競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-08-25T14:28:49Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。
ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。
プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文 参考訳(メタデータ) (2023-02-18T13:25:04Z) - Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。
本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。
位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文 参考訳(メタデータ) (2022-06-22T07:00:39Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。