論文の概要: Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution
- arxiv url: http://arxiv.org/abs/2310.16834v2
- Date: Wed, 21 Feb 2024 01:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:05:24.785397
- Title: Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution
- Title(参考訳): データ分布の比推定による離散拡散モデル
- Authors: Aaron Lou, Chenlin Meng, Stefano Ermon
- Abstract要約: 離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
- 参考スコア(独自算出の注目度): 76.33705947080871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their groundbreaking performance for many generative modeling tasks,
diffusion models have fallen short on discrete data domains such as natural
language. Crucially, standard diffusion models rely on the well-established
theory of score matching, but efforts to generalize this to discrete structures
have not yielded the same empirical gains. In this work, we bridge this gap by
proposing score entropy, a novel loss that naturally extends score matching to
discrete spaces, integrates seamlessly to build discrete diffusion models, and
significantly boosts performance. Experimentally, we test our Score Entropy
Discrete Diffusion models (SEDD) on standard language modeling tasks. For
comparable model sizes, SEDD beats existing language diffusion paradigms
(reducing perplexity by $25$-$75$\%) and is competitive with autoregressive
models, in particular outperforming GPT-2. Furthermore, compared to
autoregressive mdoels, SEDD generates faithful text without requiring
distribution annealing techniques like temperature scaling (around
$6$-$8\times$ better generative perplexity than un-annealed GPT-2), can trade
compute and quality (similar quality with $32\times$ fewer network
evaluations), and enables controllable infilling (matching nucleus sampling
quality while enabling other strategies besides left to right prompting).
- Abstract(参考訳): 多くの生成的モデリングタスクにおける画期的な性能にもかかわらず、拡散モデルは自然言語のような離散データ領域では不足している。
重要な点として、標準拡散モデルは、スコアマッチングの確立された理論に依存しているが、これを離散構造に一般化する努力は、同じ経験的成果を得られていない。
本研究では,スコアマッチングを離散空間に自然に拡張し,シームレスに統合することで離散拡散モデルを構築し,性能を著しく向上させる新たな損失であるスコアエントロピーを提案することで,このギャップを埋める。
実験では,標準言語モデリングタスクにおいて,Score Entropy Discrete Diffusion Model (SEDD) を検証した。
同等のモデルサイズでは、SEDDは既存の言語拡散パラダイム(パープレキシティを25ドル~75ドル\%削減)を破り、特にGPT-2よりも優れた自動回帰モデルと競合する。
さらに、自己回帰型mdoelと比較して、seddは温度スケーリングのような分散アニーリング技術を必要としない忠実なテキストを生成する(約6ドルから8ドル)。
関連論文リスト
- Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Data-free Black-box Attack based on Diffusion Model [59.62084781455181]
代用トレーニングの効率と精度を向上させるために,拡散モデルに基づくデータフリーのブラックボックス攻撃方式を提案する。
我々のLCAは攻撃の成功率が高く、異なるターゲットモデルに対するGANベースのスキームに比べてクエリ予算の削減が要求される。
論文 参考訳(メタデータ) (2023-07-24T15:10:22Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。