論文の概要: Likelihood-Based Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2305.18619v1
- Date: Tue, 30 May 2023 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:17:28.088000
- Title: Likelihood-Based Diffusion Language Models
- Title(参考訳): Likelihoodに基づく拡散言語モデル
- Authors: Ishaan Gulrajani, Tatsunori B. Hashimoto
- Abstract要約: 自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
- 参考スコア(独自算出の注目度): 13.916640262862215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite a growing interest in diffusion-based language models, existing work
has not shown that these models can attain nontrivial likelihoods on standard
language modeling benchmarks. In this work, we take the first steps towards
closing the likelihood gap between autoregressive and diffusion-based language
models, with the goal of building and releasing a diffusion model which
outperforms a small but widely-known autoregressive model. We pursue this goal
through algorithmic improvements, scaling laws, and increased compute. On the
algorithmic front, we introduce several methodological improvements for the
maximum-likelihood training of diffusion language models. We then study scaling
laws for our diffusion models and find compute-optimal training regimes which
differ substantially from autoregressive models. Using our methods and scaling
analysis, we train and release Plaid 1B, a large diffusion language model which
outperforms GPT-2 124M in likelihood on benchmark datasets and generates fluent
samples in unconditional and zero-shot control settings.
- Abstract(参考訳): 拡散に基づく言語モデルへの関心が高まりつつあるにもかかわらず、既存の研究は、これらのモデルが標準言語モデリングベンチマークで非自明な可能性が得られることを示していない。
本研究では, 自己回帰モデルと拡散型言語モデルとのギャップを埋める第一歩として, 小さいが広く知られている自己回帰モデルより優れた拡散モデルを構築し, リリースすることを目的とする。
我々はアルゴリズムの改善、法則のスケーリング、計算量の増加を通じてこの目標を追求する。
アルゴリズム面では,拡散言語モデルの最大様相学習のための方法論的改善がいくつか導入されている。
次に,拡散モデルに対するスケーリング則を研究し,自己回帰モデルとは大きく異なる計算最適学習レジームを求める。
提案手法とスケーリング分析を用いて,GPT-2 124Mをベンチマークデータセットで上回り,無条件およびゼロショット制御設定で流速サンプルを生成する大規模拡散言語モデルであるPlaid 1Bを学習・リリースする。
関連論文リスト
- Automated Statistical Model Discovery with Language Models [38.25466641965006]
本稿では,言語モデルを用いた自動統計モデル探索手法を提案する。
ドメイン固有のモデル言語を定義したり、手作りの検索手順を設計する必要はありません。
提案手法は,従来のシステムの性能と一致し,人間の専門家設計モデルに匹敵するモデルを特定し,古典的モデルを解釈可能な方法で拡張する。
論文 参考訳(メタデータ) (2024-02-27T20:33:22Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution [76.33705947080871]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - XDLM: Cross-lingual Diffusion Language Model for Machine Translation [0.0]
本稿では,事前学習と微調整の段階からなる機械翻訳のための新しい言語間拡散モデルを提案する。
いくつかの機械翻訳ベンチマークで結果を評価し,拡散ベースラインとトランスフォーマーベースラインを比較検討した。
論文 参考訳(メタデータ) (2023-07-25T15:08:34Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。