論文の概要: Promises, Outlooks and Challenges of Diffusion Language Modeling
- arxiv url: http://arxiv.org/abs/2406.11473v2
- Date: Wed, 10 Jul 2024 14:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 20:50:13.002307
- Title: Promises, Outlooks and Challenges of Diffusion Language Modeling
- Title(参考訳): 拡散言語モデリングの約束と展望と課題
- Authors: Justin Deschenaux, Caglar Gulcehre,
- Abstract要約: Score Entropy Discrete Diffusion (SEDD) は自己回帰生成の代替として有望であることを示す。
推論レイテンシの面では、SEDDはGPT-2よりも4.5$times$効率が高い。
SEDDは任意位置でのトークンの条件付けを許すが、SEDDは短いプロンプトを条件付き生成するためにGPT-2よりもわずかに弱いように見える。
- 参考スコア(独自算出の注目度): 1.5858234832499587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modern autoregressive Large Language Models (LLMs) have achieved outstanding performance on NLP benchmarks, and they are deployed in the real world. However, they still suffer from limitations of the autoregressive training paradigm. For example, autoregressive token generation is notably slow and can be prone to \textit{exposure bias}. The diffusion-based language models were proposed as an alternative to autoregressive generation to address some of these limitations. We evaluate the recently proposed Score Entropy Discrete Diffusion (SEDD) approach and show it is a promising alternative to autoregressive generation but it has some short-comings too. We empirically demonstrate the advantages and challenges of SEDD, and observe that SEDD generally matches autoregressive models in perplexity and on benchmarks such as HellaSwag, Arc or WinoGrande. Additionally, we show that in terms of inference latency, SEDD can be up to 4.5$\times$ more efficient than GPT-2. While SEDD allows conditioning on tokens at abitrary positions, SEDD appears slightly weaker than GPT-2 for conditional generation given short prompts. Finally, we reproduced the main results from the original SEDD paper.
- Abstract(参考訳): 現代の自己回帰型大規模言語モデル(LLM)は、NLPベンチマークにおいて優れた性能を発揮しており、それらは現実世界にデプロイされている。
しかし、彼らはまだ自己回帰訓練パラダイムの限界に悩まされている。
例えば、自動回帰トークン生成は明らかに遅く、textit{exposure bias} になりやすい。
拡散に基づく言語モデルは、これらの制限に対処するために自己回帰生成に代わるものとして提案された。
最近提案されたScore Entropy Discrete Diffusion (SEDD) アプローチを評価し, 自己回帰生成の代替として有望であることを示すが, 欠点もいくつかある。
我々はSEDDの利点と課題を実証的に実証し、SEDDは一般的に、難易度やHellaSwag、Arc、WinoGrandeといったベンチマークで自己回帰モデルと一致することを観察する。
さらに,SEDDはGPT-2よりも4.5$\times$効率が高いことを示す。
SEDDは任意位置でのトークンの条件付けを許すが、SEDDは短いプロンプトを条件付き生成するためにGPT-2よりもわずかに弱いように見える。
最後に,本論文の主な成果を元のSEDD紙から再現した。
関連論文リスト
- Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Diffusion Language Models Generation Can Be Halted Early [4.726777092009553]
拡散言語モデル (DLMs) は, トラクタブル・コントロール可能生成における実用性から, テキスト生成の道のりとして有望である。
これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。
本稿では,この問題に対処するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T08:56:05Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。