論文の概要: Transfer Learning for Text Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.17181v1
- Date: Tue, 30 Jan 2024 17:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:07:44.856513
- Title: Transfer Learning for Text Diffusion Models
- Title(参考訳): テキスト拡散モデルのための転送学習
- Authors: Kehang Han, Kathleen Kenealy, Aditya Barua, Noah Fiedel, Noah Constant
- Abstract要約: 我々は,大規模言語モデル(LLM)の訓練と展開において,自己回帰(AR)デコーディングを置き換えるためのテキスト拡散の可能性を探る。
我々はAR2Diff'と呼ばれる軽量適応手法を用いて、事前訓練されたARモデルをテキスト拡散モデルに変換する。
- 参考スコア(独自算出の注目度): 16.97230119564891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we explore the potential for text diffusion to replace
autoregressive (AR) decoding for the training and deployment of large language
models (LLMs). We are particularly interested to see whether pretrained AR
models can be transformed into text diffusion models through a lightweight
adaptation procedure we call ``AR2Diff''. We begin by establishing a strong
baseline setup for training text diffusion models. Comparing across multiple
architectures and pretraining objectives, we find that training a decoder-only
model with a prefix LM objective is best or near-best across several tasks.
Building on this finding, we test various transfer learning setups for text
diffusion models. On machine translation, we find that text diffusion
underperforms the standard AR approach. However, on code synthesis and
extractive QA, we find diffusion models trained from scratch outperform AR
models in many cases. We also observe quality gains from AR2Diff -- adapting AR
models to use diffusion decoding. These results are promising given that text
diffusion is relatively underexplored and can be significantly faster than AR
decoding for long text generation.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の訓練と展開において,自己回帰(AR)デコーディングに代わるテキスト拡散の可能性を検討する。
特に,<AR2Diff''と呼ばれる軽量適応手法を用いて,事前学習したARモデルをテキスト拡散モデルに変換できるかどうかに興味がある。
まず,テキスト拡散モデルのトレーニングのための強力なベースライン設定を確立する。
複数のアーキテクチャと事前学習対象を比較したところ、複数のタスクでLM目標をプレフィックスしたデコーダのみのモデルのトレーニングが最善か最善かのどちらかであることが判明した。
この発見に基づいて,テキスト拡散モデルのための様々な伝達学習装置をテストする。
機械翻訳では、テキスト拡散が標準的なARアプローチを過小評価している。
しかし、コード合成と抽出QAにより、多くの場合、スクラッチのARモデルより訓練された拡散モデルが見つかる。
また、拡散復号化を使用するためにARモデルを適用するAR2Diffによる品質向上も観察します。
これらの結果は、テキスト拡散が比較的未熟であり、長いテキスト生成のためのarデコーディングよりもはるかに高速であることを考えると有望である。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。