論文の概要: TEncDM: Understanding the Properties of Diffusion Model in the Space of
Language Model Encodings
- arxiv url: http://arxiv.org/abs/2402.19097v1
- Date: Thu, 29 Feb 2024 12:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:06:54.420848
- Title: TEncDM: Understanding the Properties of Diffusion Model in the Space of
Language Model Encodings
- Title(参考訳): TEncDM:言語モデル符号化空間における拡散モデルの性質の理解
- Authors: Alexander Shabalin, Viacheslav Meshchaninov, Tingir Badmaev, Dmitry
Molchanov, Grigory Bartosh, Sergey Markov, Dmitry Vetrov
- Abstract要約: テキスト拡散モデル(TEncDM)という新しいアプローチを導入する。
一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。
また、自己条件分析を行い、モデル出力の規模を増大させる。
- 参考スコア(独自算出の注目度): 39.34471874948928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing inspiration from the success of diffusion models in various domains,
numerous research papers proposed methods for adapting them to text data.
Despite these efforts, none of them has managed to achieve the quality of the
large language models. In this paper, we conduct a comprehensive analysis of
key components of the text diffusion models and introduce a novel approach
named Text Encoding Diffusion Model (TEncDM). Instead of the commonly used
token embedding space, we train our model in the space of the language model
encodings. Additionally, we propose to use a Transformer-based decoder that
utilizes contextual information for text reconstruction. We also analyse
self-conditioning and find that it increases the magnitude of the model
outputs, allowing the reduction of the number of denoising steps at the
inference stage. Evaluation of TEncDM on two downstream text generation tasks,
QQP and XSum, demonstrates its superiority over existing non-autoregressive
models.
- Abstract(参考訳): 様々な領域における拡散モデルの成功から着想を得た多くの研究論文がテキストデータに適用する方法を提案した。
これらの努力にもかかわらず、いずれも大きな言語モデルの品質を達成できていない。
本稿では,テキスト拡散モデルの主要成分の包括的分析を行い,テキスト符号化拡散モデル(tencdm)と呼ばれる新しい手法を提案する。
一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。
さらに,テキスト再構成に文脈情報を利用するトランスベースデコーダの利用を提案する。
また, 自己コンディショニングの分析を行い, モデル出力の大きさを増加させ, 推論段階での消音段数を削減できることを見出した。
2つの下流テキスト生成タスクであるQQPとXSumにおけるTEncDMの評価は、既存の非自己回帰モデルよりも優れていることを示す。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation [16.78350863261211]
本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。
実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
論文 参考訳(メタデータ) (2023-10-17T06:53:00Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。