論文の概要: On the Noise Scheduling for Generating Plausible Designs with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2311.11207v1
- Date: Sun, 19 Nov 2023 03:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 06:58:14.494066
- Title: On the Noise Scheduling for Generating Plausible Designs with Diffusion
Models
- Title(参考訳): 拡散モデルを用いた有理設計生成のための雑音スケジューリングについて
- Authors: Jiajie Fan, Laure Vuaille, Thomas B\"ack, Hao Wang
- Abstract要約: 拡散モデルのノイズスケジュールが結果の妥当性に及ぼす影響について検討する。
そこで本稿では,所定の画像集合に対してそのような範囲を決定するための2つの手法を提案する。
我々のスケジュールは、83.4%から93.5%に、Fr'echet Inception Distance (FID)は7.84から4.87に大幅に改善されている。
- 参考スコア(独自算出の注目度): 5.845803891419152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Generative Models (DGMs) are widely used to create innovative designs
across multiple industries, ranging from fashion to the automotive sector. In
addition to generating images of high visual quality, the task of structural
design generation imposes more stringent constrains on the semantic expression,
e.g., no floating material or missing part, which we refer to as plausibility
in this work. We delve into the impact of noise schedules of diffusion models
on the plausibility of the outcome: there exists a range of noise levels at
which the model's performance decides the result plausibility. Also, we propose
two techniques to determine such a range for a given image set and devise a
novel parametric noise schedule for better plausibility. We apply this noise
schedule to the training and sampling of the well-known diffusion model EDM and
compare it to its default noise schedule. Compared to EDM, our schedule
significantly improves the rate of plausible designs from 83.4% to 93.5% and
Fr\'echet Inception Distance (FID) from 7.84 to 4.87. Further applications of
advanced image editing tools demonstrate the model's solid understanding of
structure.
- Abstract(参考訳): ディープジェネレーティブモデル(dgms)はファッションから自動車部門まで、複数の業界にまたがる革新的なデザインを生み出すために広く使われている。
視覚的品質の高い画像を生成することに加え、構造設計のタスクは、例えば浮動小数点や欠落部分などの意味表現により厳密な制約を課す。
拡散モデルのノイズスケジュールが結果の妥当性に与える影響を探索し、モデルの性能が結果の可否を決定する様々なノイズレベルが存在することを示す。
また,与えられた画像集合に対して,そのような範囲を決定するための2つの手法を提案し,新しいパラメトリックノイズスケジュールを考案し,信頼性を向上させる。
このノイズスケジュールをよく知られた拡散モデルEDMのトレーニングとサンプリングに適用し、デフォルトのノイズスケジュールと比較する。
edmと比較すると, 設計精度は83.4%から93.5%, fr\'echetインセプション距離 (fid) が7.84から4.87に大幅に向上した。
高度な画像編集ツールのさらなる応用は、モデルの構造に対するしっかりとした理解を示している。
関連論文リスト
- Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [23.042478625584653]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
提案したNASEは,任意の拡散SEモデルに一般化可能なプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。