論文の概要: TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings
- arxiv url: http://arxiv.org/abs/2402.19097v2
- Date: Thu, 29 Aug 2024 09:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:18:41.468544
- Title: TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings
- Title(参考訳): TEncDM:言語モデル符号化空間における拡散モデルの性質の理解
- Authors: Alexander Shabalin, Viacheslav Meshchaninov, Egor Chimbulatov, Vladislav Lapikov, Roman Kim, Grigory Bartosh, Dmitry Molchanov, Sergey Markov, Dmitry Vetrov,
- Abstract要約: TEncDMは、事前訓練された言語モデルエンコーディングの空間で動作する拡散モデリングの新しいアプローチである。
このアプローチでは,トークン予測プロセスにコンテキストを組み込むように設計されたトランスフォーマーベースのデコーダも採用しています。
- 参考スコア(独自算出の注目度): 35.18238858796925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Text Encoding Diffusion Model (TEncDM), a novel approach to diffusion modeling that operates in the space of pre-trained language model encodings. In contrast to traditionally used embeddings, encodings integrate contextual information. In our approach, we also employ a transformer-based decoder, specifically designed to incorporate context in the token prediction process. We conduct a comprehensive examination of the influence of the encoder, decoder, noise scheduler, and self-conditioning on zero-shot generation. Furthermore, we compare TEncDM with previous approaches on three conditional text generation tasks: QQP, XSum, and Wiki-Auto. The results show that TEncDM exhibits superior performance compared to existing non-autoregressive diffusion models.
- Abstract(参考訳): 本稿では,テキスト符号化拡散モデル(TEncDM, Text Encoding Diffusion Model)を提案する。
従来の埋め込みとは対照的に、エンコーディングは文脈情報を統合する。
このアプローチでは,トークン予測プロセスにコンテキストを組み込むように設計されたトランスフォーマーベースのデコーダも採用しています。
ゼロショット生成におけるエンコーダ,デコーダ,ノイズスケジューラ,セルフコンディショニングの影響を総合的に検討する。
さらに,TEncDMと3つの条件付きテキスト生成タスク(QQP,XSum,Wiki-Auto)の比較を行った。
その結果,TEncDMは既存の非自己回帰拡散モデルと比較して優れた性能を示した。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation [16.78350863261211]
本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。
実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
論文 参考訳(メタデータ) (2023-10-17T06:53:00Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。