Fugu-MT 論文翻訳(概要): Learning to Discretize Denoising Diffusion ODEs

論文の概要: Learning to Discretize Denoising Diffusion ODEs

arxiv url: http://arxiv.org/abs/2405.15506v1
Date: Fri, 24 May 2024 12:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 14:22:48.306118
Title: Learning to Discretize Denoising Diffusion ODEs
Title（参考訳）: 拡散モードを識別する学習
Authors: Vinh Tong, Anji Liu, Trung-Dung Hoang, Guy Van den Broeck, Mathias Niepert,
Abstract要約: DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するフレームワーク LD3 を提案する。我々は,LD3が蒸留法と比較してサンプリング効率を向上させることを分析的,実証的に実証した。
参考スコア（独自算出の注目度）: 41.50816120270017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Probabilistic Models (DPMs) are powerful generative models showing competitive performance in various domains, including image synthesis and 3D point cloud generation. However, sampling from pre-trained DPMs involves multiple neural function evaluations (NFE) to transform Gaussian noise samples into images, resulting in higher computational costs compared to single-step generative models such as GANs or VAEs. Therefore, a crucial problem is to reduce NFE while preserving generation quality. To this end, we propose LD3, a lightweight framework for learning time discretization while sampling from the diffusion ODE encapsulated by DPMs. LD3 can be combined with various diffusion ODE solvers and consistently improves performance without retraining resource-intensive neural networks. We demonstrate analytically and empirically that LD3 enhances sampling efficiency compared to distillation-based methods, without the extensive computational overhead. We evaluate our method with extensive experiments on 5 datasets, covering unconditional and conditional sampling in both pixel-space and latent-space DPMs. For example, in about 5 minutes of training on a single GPU, our method reduces the FID score from 6.63 to 2.68 on CIFAR10 (7 NFE), and in around 20 minutes, decreases the FID from 8.51 to 5.03 on class-conditional ImageNet-256 (5 NFE). LD3 complements distillation methods, offering a more efficient approach to sampling from pre-trained diffusion models.
Abstract（参考訳）: 拡散確率モデル(DPM)は、画像合成や3Dポイントクラウド生成など、様々な領域で競合する性能を示す強力な生成モデルである。しかしながら、事前訓練されたDPMからのサンプリングには、ガウスノイズサンプルを画像に変換する複数の神経機能評価(NFE)が含まれるため、GANやVAEのような単一ステップ生成モデルよりも高い計算コストが生じる。したがって、生成品質を維持しながらNFEを減少させることが重要な問題である。そこで本研究では,DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するための軽量フレームワーク LD3 を提案する。 LD3は様々な拡散ODEソルバと組み合わせることができる。 LD3は, 蒸留法よりもサンプリング効率を向上し, 膨大な計算オーバーヘッドを伴わないことを解析的, 実証的に実証した。提案手法を5つのデータセットに対して広範な実験により評価し,画素空間DPMと潜在空間DPMの両方で条件付きおよび条件付きサンプリングを行う。例えば、1つのGPUで約5分間のトレーニングでは、CIFAR10(7 NFE)ではFIDスコアが6.63から2.68に減少し、20分後には、クラス条件のImageNet-256(5 NFE)では8.51から5.03に低下する。 LD3は蒸留法を補完し、事前訓練された拡散モデルからのサンプリングをより効率的に行う。

関連論文リスト

TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [42.99251753481681]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文参考訳（メタデータ） (2025-06-26T20:30:27Z)
ODE$_t$(ODE$_l$): Shortcutting the Time and Length in Diffusion and Flow Models for Faster Sampling [33.87434194582367]
本研究では,品質・複雑さのトレードオフを動的に制御できる相補的な方向について検討する。我々は,フローマッチングトレーニング中に時間と長さの整合性項を用い,任意の時間ステップでサンプリングを行うことができる。従来の技術と比較すると、CelebA-HQとImageNetのイメージ生成実験は、最も効率的なサンプリングモードで最大3$times$のレイテンシの低下を示している。
論文参考訳（メタデータ） (2025-06-26T18:59:59Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文参考訳（メタデータ） (2025-04-02T22:17:30Z)
Distilling Multi-view Diffusion Models into 3D Generators [4.3238419212557115]
本稿では,多視点拡散モデル(MV-DM)をガウススプラッティングを用いた3次元ジェネレータに拡散させる定式化であるDD3Gを紹介する。 DD3GはMV-DMから広範囲の視覚的および空間的知識を圧縮し統合する。本稿では,パターン抽出とプログレッシブデコーディングのフェーズからなるジェネレータPEPDを提案する。
論文参考訳（メタデータ） (2025-04-01T06:32:48Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。 NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文参考訳（メタデータ） (2024-08-06T13:49:01Z)
cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation [0.7853804618032806]
本稿では,複数の時間領域観測のクラスをシミュレートする手法として,ジェネレーティブ・アドリアック・ネットワーク・フレームワークに新しい条件モデルを提案する。提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。実験の結果,cDVGAN生成データによる畳み込みニューラルネットワークのトレーニングにより,検出器ノイズに埋め込まれたサンプルの検出が向上することがわかった。
論文参考訳（メタデータ） (2024-01-29T17:59:26Z)
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-02T02:27:58Z)
DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics [23.030972042695275]
拡散モデル(DPM)は、非効率サンプリングに悩まされながら、高忠実度画像生成に優れた性能を示した。最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。本稿では,1次離散化誤差を最小限に抑えるため,サンプリング中の最適パラメータ化に向けた新しい定式化を提案する。
論文参考訳（メタデータ） (2023-10-20T04:23:12Z)
Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文参考訳（メタデータ） (2023-05-25T17:59:42Z)
Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文参考訳（メタデータ） (2022-11-24T07:30:27Z)
BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis [45.58131296169655]
拡散確率モデル(DPM)とその拡張は、競争力のある生成モデルとして登場したが、効率的なサンプリングの課題に直面している。本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化する,新たな二値化拡散モデルを提案する。従来のサロゲートよりも厳密なログの辺りを狭めることが,新しいサロゲートの目的であることを示す。
論文参考訳（メタデータ） (2022-03-25T08:53:12Z)
Bilateral Denoising Diffusion Models [34.507876199641665]
拡散確率モデル (DDPM) は競合生成モデルとして出現している。本稿では,高品質なサンプルを生成するためのステップを著しく減らした,新しい二値化拡散モデル(BDDM)を提案する。
論文参考訳（メタデータ） (2021-08-26T13:23:41Z)
Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文参考訳（メタデータ） (2020-12-07T03:44:35Z)
Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。 DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文参考訳（メタデータ） (2020-10-06T06:15:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。