論文の概要: TEncDM: Understanding the Properties of Diffusion Model in the Space of
Language Model Encodings
- arxiv url: http://arxiv.org/abs/2402.19097v1
- Date: Thu, 29 Feb 2024 12:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:06:54.420848
- Title: TEncDM: Understanding the Properties of Diffusion Model in the Space of
Language Model Encodings
- Title(参考訳): TEncDM:言語モデル符号化空間における拡散モデルの性質の理解
- Authors: Alexander Shabalin, Viacheslav Meshchaninov, Tingir Badmaev, Dmitry
Molchanov, Grigory Bartosh, Sergey Markov, Dmitry Vetrov
- Abstract要約: テキスト拡散モデル(TEncDM)という新しいアプローチを導入する。
一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。
また、自己条件分析を行い、モデル出力の規模を増大させる。
- 参考スコア(独自算出の注目度): 39.34471874948928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing inspiration from the success of diffusion models in various domains,
numerous research papers proposed methods for adapting them to text data.
Despite these efforts, none of them has managed to achieve the quality of the
large language models. In this paper, we conduct a comprehensive analysis of
key components of the text diffusion models and introduce a novel approach
named Text Encoding Diffusion Model (TEncDM). Instead of the commonly used
token embedding space, we train our model in the space of the language model
encodings. Additionally, we propose to use a Transformer-based decoder that
utilizes contextual information for text reconstruction. We also analyse
self-conditioning and find that it increases the magnitude of the model
outputs, allowing the reduction of the number of denoising steps at the
inference stage. Evaluation of TEncDM on two downstream text generation tasks,
QQP and XSum, demonstrates its superiority over existing non-autoregressive
models.
- Abstract(参考訳): 様々な領域における拡散モデルの成功から着想を得た多くの研究論文がテキストデータに適用する方法を提案した。
これらの努力にもかかわらず、いずれも大きな言語モデルの品質を達成できていない。
本稿では,テキスト拡散モデルの主要成分の包括的分析を行い,テキスト符号化拡散モデル(tencdm)と呼ばれる新しい手法を提案する。
一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。
さらに,テキスト再構成に文脈情報を利用するトランスベースデコーダの利用を提案する。
また, 自己コンディショニングの分析を行い, モデル出力の大きさを増加させ, 推論段階での消音段数を削減できることを見出した。
2つの下流テキスト生成タスクであるQQPとXSumにおけるTEncDMの評価は、既存の非自己回帰モデルよりも優れていることを示す。
関連論文リスト
- Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation [16.78350863261211]
本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。
実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
論文 参考訳(メタデータ) (2023-10-17T06:53:00Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion
Model [39.43807901918387]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。