論文の概要: AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
- arxiv url: http://arxiv.org/abs/2305.09515v3
- Date: Wed, 13 Dec 2023 10:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:51:09.763830
- Title: AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
- Title(参考訳): AR拡散:テキスト生成のための自己回帰拡散モデル
- Authors: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao,
Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
- Abstract要約: 本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 138.98095392584693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained significant attention in the realm of image
generation due to their exceptional performance. Their success has been
recently expanded to text generation via generating all tokens within a
sequence concurrently. However, natural language exhibits a far more pronounced
sequential dependency in comparison to images, and the majority of existing
language models are trained with a left-to-right auto-regressive approach. To
account for the inherent sequential characteristic of natural language, we
introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that
the generation of tokens on the right depends on the generated ones on the
left, a mechanism achieved through employing a dynamic number of denoising
steps that vary based on token position. This results in tokens on the left
undergoing fewer denoising steps than those on the right, thereby enabling them
to generate earlier and subsequently influence the generation of tokens on the
right. In a series of experiments on various text generation tasks, including
text summarization, machine translation, and common sense generation,
AR-Diffusion clearly demonstrated its superiority over existing diffusion
language models and that it can be $100\times\sim600\times$ faster when
achieving comparable results. Our code is available at
https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.
- Abstract(参考訳): 拡散モデルはその優れた性能のために画像生成の分野で大きな注目を集めている。
彼らの成功は、シーケンス内のすべてのトークンを同時生成することで、最近テキスト生成に拡大された。
しかし、自然言語は画像と比較してはるかに顕著な依存性を示しており、既存の言語モデルは左から右への自己回帰アプローチで訓練されている。
自然言語の固有な逐次特性を考慮し,自己回帰拡散(AR-Diffusion)を導入する。
AR拡散(AR-Diffusion)は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
この結果、左のトークンは右のトークンよりもデノイングステップが少ないため、より早く生成でき、その後右のトークンの生成に影響を与える。
テキスト要約、機械翻訳、常識生成を含む様々なテキスト生成タスクに関する一連の実験で、ar-diffusionは既存の拡散言語モデルよりも優れていることを明確に証明し、同等の結果を得るには100\times\sim600\times$であることを示した。
私たちのコードはhttps://github.com/microsoft/ProphetNet/tree/master/AR-diffusionで利用可能です。
関連論文リスト
- LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - DiffCap: Exploring Continuous Diffusion on Image Captioning [16.572887005727555]
画像キャプションに連続拡散を適用する新しいDiffCapを提案する。
提案手法は, 離散トークンを自然な方法で変換し, 連続拡散を適用して抽出した画像特徴を融合させる。
COCOデータセットを用いた実験では,従来の非自己回帰実験と同等の結果を得るために,より単純な構造を用いていることが示された。
論文 参考訳(メタデータ) (2023-05-20T09:02:10Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。