論文の概要: Likelihood-Based Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2305.18619v1
- Date: Tue, 30 May 2023 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:17:28.088000
- Title: Likelihood-Based Diffusion Language Models
- Title(参考訳): Likelihoodに基づく拡散言語モデル
- Authors: Ishaan Gulrajani, Tatsunori B. Hashimoto
- Abstract要約: 自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
- 参考スコア(独自算出の注目度): 13.916640262862215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite a growing interest in diffusion-based language models, existing work
has not shown that these models can attain nontrivial likelihoods on standard
language modeling benchmarks. In this work, we take the first steps towards
closing the likelihood gap between autoregressive and diffusion-based language
models, with the goal of building and releasing a diffusion model which
outperforms a small but widely-known autoregressive model. We pursue this goal
through algorithmic improvements, scaling laws, and increased compute. On the
algorithmic front, we introduce several methodological improvements for the
maximum-likelihood training of diffusion language models. We then study scaling
laws for our diffusion models and find compute-optimal training regimes which
differ substantially from autoregressive models. Using our methods and scaling
analysis, we train and release Plaid 1B, a large diffusion language model which
outperforms GPT-2 124M in likelihood on benchmark datasets and generates fluent
samples in unconditional and zero-shot control settings.
- Abstract(参考訳): 拡散に基づく言語モデルへの関心が高まりつつあるにもかかわらず、既存の研究は、これらのモデルが標準言語モデリングベンチマークで非自明な可能性が得られることを示していない。
本研究では, 自己回帰モデルと拡散型言語モデルとのギャップを埋める第一歩として, 小さいが広く知られている自己回帰モデルより優れた拡散モデルを構築し, リリースすることを目的とする。
我々はアルゴリズムの改善、法則のスケーリング、計算量の増加を通じてこの目標を追求する。
アルゴリズム面では,拡散言語モデルの最大様相学習のための方法論的改善がいくつか導入されている。
次に,拡散モデルに対するスケーリング則を研究し,自己回帰モデルとは大きく異なる計算最適学習レジームを求める。
提案手法とスケーリング分析を用いて,GPT-2 124Mをベンチマークデータセットで上回り,無条件およびゼロショット制御設定で流速サンプルを生成する大規模拡散言語モデルであるPlaid 1Bを学習・リリースする。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。