論文の概要: Scaling Diffusion Language Models via Adaptation from Autoregressive Models
- arxiv url: http://arxiv.org/abs/2410.17891v1
- Date: Wed, 23 Oct 2024 14:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:17.302279
- Title: Scaling Diffusion Language Models via Adaptation from Autoregressive Models
- Title(参考訳): 自己回帰モデルからの適応による拡散言語モデルのスケーリング
- Authors: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong,
- Abstract要約: 拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
- 参考スコア(独自算出の注目度): 105.70889434492143
- License:
- Abstract: Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language modeling benchmarks. Additionally, training diffusion models from scratch at scale remains challenging. Given the prevalence of open-source AR language models, we propose adapting these models to build text diffusion models. We demonstrate connections between AR and diffusion modeling objectives and introduce a simple continual pre-training approach for training diffusion models. Through systematic evaluation on language modeling, reasoning, and commonsense benchmarks, we show that we can convert AR models ranging from 127M to 7B parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA, using less than 200B tokens for training. Our experimental results reveal that these models outperform earlier DLMs and are competitive with their AR counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters) capable of generating fluent text, performing in-context learning, filling in the middle without prompt re-ordering, and following instructions \url{https://github.com/HKUNLP/DiffuLLaMA}.
- Abstract(参考訳): 拡散言語モデル(DLM)は、自動回帰(AR)モデルの限界に対処する可能性のある、テキスト生成モデリングのための将来性のある新しいパラダイムとして登場した。
しかし、現在のDLMはARと比較して小規模で研究されており、言語モデリングベンチマークでは公正な比較が得られていない。
さらに、スクラッチからスケールでの拡散モデルのトレーニングも難しいままである。
オープンソースAR言語モデルの普及に伴い,テキスト拡散モデルの構築にこれらのモデルを適用することを提案する。
本稿では,ARと拡散モデルとの関連性を実証し,拡散モデルのトレーニングのための簡易な継続事前学習手法を提案する。
言語モデリング,推論,コモンセンスベンチマークの体系的評価を通じて,200B未満のトークンを用いて,127Mから7Bパラメータ(GPT2,LLaMA)のARモデルを拡散モデルDiffuGPT,DiffuLLaMAに変換することができることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることが明らかとなった。
フロートテキストを生成することができるDLM(117M, 355M, 7Bパラメータを含む)のスイートをリリースし、テキスト内学習を行い、即時再順序付けをせずに中央に埋め込む。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - Transfer Learning for Text Diffusion Models [16.97230119564891]
我々は,大規模言語モデル(LLM)の訓練と展開において,自己回帰(AR)デコーディングを置き換えるためのテキスト拡散の可能性を探る。
我々はAR2Diff'と呼ばれる軽量適応手法を用いて、事前訓練されたARモデルをテキスト拡散モデルに変換する。
論文 参考訳(メタデータ) (2024-01-30T17:11:56Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。