論文の概要: Discrete Diffusion Language Modeling by Estimating the Ratios of the
Data Distribution
- arxiv url: http://arxiv.org/abs/2310.16834v1
- Date: Wed, 25 Oct 2023 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:01:04.033883
- Title: Discrete Diffusion Language Modeling by Estimating the Ratios of the
Data Distribution
- Title(参考訳): データ分布の比推定による離散拡散言語モデリング
- Authors: Aaron Lou, Chenlin Meng, Stefano Ermon
- Abstract要約: 従来の手法よりも安定な新しい離散的なスコアマッチング損失であるスコアエントロピーを提案する。
我々は、スコアエントロピー離散拡散モデル(SEDD)をGPT-2の実験的な設定に拡張する。
- 参考スコア(独自算出の注目度): 76.33705947080871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their groundbreaking performance for many generative modeling tasks,
diffusion models have fallen short on discrete data domains such as natural
language. Crucially, standard diffusion models rely on the well-established
theory of score matching, but efforts to generalize this to discrete structures
have not yielded the same empirical gains. In this work, we bridge this gap by
proposing score entropy, a novel discrete score matching loss that is more
stable than existing methods, forms an ELBO for maximum likelihood training,
and can be efficiently optimized with a denoising variant. We scale our Score
Entropy Discrete Diffusion models (SEDD) to the experimental setting of GPT-2,
achieving highly competitive likelihoods while also introducing distinct
algorithmic advantages. In particular, when comparing similarly sized SEDD and
GPT-2 models, SEDD attains comparable perplexities (normally within $+10\%$ of
and sometimes outperforming the baseline). Furthermore, SEDD models learn a
more faithful sequence distribution (around $4\times$ better compared to GPT-2
models with ancestral sampling as measured by large models), can trade off
compute for generation quality (needing only $16\times$ fewer network
evaluations to match GPT-2), and enables arbitrary infilling beyond the
standard left to right prompting.
- Abstract(参考訳): 多くの生成的モデリングタスクにおける画期的な性能にもかかわらず、拡散モデルは自然言語のような離散データ領域では不足している。
重要な点として、標準拡散モデルは、スコアマッチングの確立された理論に依存しているが、これを離散構造に一般化する努力は、同じ経験的成果を得られていない。
本研究では,従来の手法よりも安定な新たな離散的なスコアマッチング損失であるスコアエントロピーを提案することで,このギャップを埋める。
我々は,Score Entropy Discrete Diffusion Model (SEDD) をGPT-2の実験的な設定に拡張し,高い競合可能性を実現するとともに,異なるアルゴリズム上の利点ももたらした。
特に、同様のサイズのSEDDとGPT-2モデルを比較すると、SEDDは同等の難易度(通常、$+10\%$以内で、時にはベースラインを上回っている)が得られる。
さらに、SEDDモデルは、より忠実なシーケンス分布(GPT-2モデルよりも約4\times$)を学習し、生成品質(GPT-2と一致するネットワーク評価がわずか16\times$より少ない)で計算をオフにし、標準左から右へのプロンプトを超えて任意のインフィルを可能にする。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Informed Correctors for Discrete Diffusion Models [32.87362154118195]
モデルで学習した情報を活用することにより、より確実に離散化誤差に対処できる情報修正系を提案する。
また,$k$-Gillespie'sも提案する。これは,各モデル評価をよりよく活用するサンプリングアルゴリズムで,$tau$-leapingの速度と柔軟性を引き続き享受する。
いくつかの実・合成データセットにおいて,情報付き修正器を用いた$k$-Gillespieは,より低い計算コストで高い品質のサンプルを確実に生成することを示す。
論文 参考訳(メタデータ) (2024-07-30T23:29:29Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Transfer Learning for Diffusion Models [43.10840361752551]
拡散モデルは高品質な合成サンプルを一貫して生成する。
コレクションコストや関連するリスクのため、現実のアプリケーションでは実用的ではありません。
本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。
論文 参考訳(メタデータ) (2024-05-27T06:48:58Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。