Fugu-MT 論文翻訳(概要): TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings

論文の概要: TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings

arxiv url: http://arxiv.org/abs/2402.19097v1
Date: Thu, 29 Feb 2024 12:25:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 15:06:54.420848
Title: TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings
Title（参考訳）: TEncDM:言語モデル符号化空間における拡散モデルの性質の理解
Authors: Alexander Shabalin, Viacheslav Meshchaninov, Tingir Badmaev, Dmitry Molchanov, Grigory Bartosh, Sergey Markov, Dmitry Vetrov
Abstract要約: テキスト拡散モデル(TEncDM)という新しいアプローチを導入する。一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。また、自己条件分析を行い、モデル出力の規模を増大させる。
参考スコア（独自算出の注目度）: 39.34471874948928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Drawing inspiration from the success of diffusion models in various domains, numerous research papers proposed methods for adapting them to text data. Despite these efforts, none of them has managed to achieve the quality of the large language models. In this paper, we conduct a comprehensive analysis of key components of the text diffusion models and introduce a novel approach named Text Encoding Diffusion Model (TEncDM). Instead of the commonly used token embedding space, we train our model in the space of the language model encodings. Additionally, we propose to use a Transformer-based decoder that utilizes contextual information for text reconstruction. We also analyse self-conditioning and find that it increases the magnitude of the model outputs, allowing the reduction of the number of denoising steps at the inference stage. Evaluation of TEncDM on two downstream text generation tasks, QQP and XSum, demonstrates its superiority over existing non-autoregressive models.
Abstract（参考訳）: 様々な領域における拡散モデルの成功から着想を得た多くの研究論文がテキストデータに適用する方法を提案した。これらの努力にもかかわらず、いずれも大きな言語モデルの品質を達成できていない。本稿では,テキスト拡散モデルの主要成分の包括的分析を行い,テキスト符号化拡散モデル(tencdm)と呼ばれる新しい手法を提案する。一般的に使用されるトークン埋め込みスペースの代わりに、言語モデルエンコーディングの空間でモデルをトレーニングします。さらに,テキスト再構成に文脈情報を利用するトランスベースデコーダの利用を提案する。また, 自己コンディショニングの分析を行い, モデル出力の大きさを増加させ, 推論段階での消音段数を削減できることを見出した。 2つの下流テキスト生成タスクであるQQPとXSumにおけるTEncDMの評価は、既存の非自己回帰モデルよりも優れていることを示す。

関連論文リスト

Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-06T12:17:35Z)
A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文参考訳（メタデータ） (2024-07-03T12:50:49Z)
Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。一般化逆変換拡散確率モデル(EDDPM)を導入する。 EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文参考訳（メタデータ） (2024-02-29T10:08:57Z)
Exploring Automatic Evaluation Methods based on a Decoder-based LLM for Text Generation [16.78350863261211]
本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
論文参考訳（メタデータ） (2023-10-17T06:53:00Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。 DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文参考訳（メタデータ） (2023-05-19T08:30:11Z)
Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。 SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。 COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文参考訳（メタデータ） (2022-12-06T16:08:16Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文参考訳（メタデータ） (2022-08-21T01:00:54Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。 Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文参考訳（メタデータ） (2020-10-28T21:55:25Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。