論文の概要: AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for
Language Modeling
- arxiv url: http://arxiv.org/abs/2205.05862v1
- Date: Thu, 12 May 2022 03:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:50:18.412195
- Title: AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for
Language Modeling
- Title(参考訳): AdaVAE:言語モデリングのための変分オートエンコーダにおける適応型GPT-2探索
- Authors: Haoqin Tu, Zhongliang Yang, Jinshuai Yang, Siyu Zhang, Yongfeng Huang
- Abstract要約: 変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
既存のVAEベースの言語モデルは、基本的なRNNを使用するか、ダウンストリームタスクに2つの訓練済み言語モデル(PLM)を使用する。
本稿では,適応型GPT-2(AdaVAE)を用いた最初のVAEフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 33.18577107062907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational Auto-Encoder (VAE) has become the de-facto learning paradigm in
achieving both representation learning and generation for natural language.
However, existing VAE-based language models either employ elementary RNNs,
which is not powerful to handle multi-tasks, or fine-tunes two pre-trained
language models (PLMs) for any downstream task, which requires huge energy
consumption. In this paper, we introduce the first VAE framework empowered with
adaptive GPT-2s (AdaVAE). Different from mentioned systems, we unify both the
encoder and decoder of VAE model using GPT-2s with adaptive parameter-efficient
components. Experiments from multiple dimensions validate that AdaVAE is
competent to better organize language in generation and representation
modeling, even with less than $15\%$ additionally activated parameters during
training. Our code is available at \url{https://github.com/ImKeTT/adavae}.
- Abstract(参考訳): 変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
しかし、既存のVAEベースの言語モデルでは、マルチタスクを扱うには強力でない基本RNNを使うか、ダウンストリームタスクに対して2つの事前訓練言語モデル(PLM)を微調整する。
本稿では,適応型GPT-2(AdaVAE)を用いた初のVAEフレームワークを提案する。
上記のシステムと異なり,適応パラメータ効率成分を用いたgpt-2を用いてvaeモデルのエンコーダとデコーダを統一する。
複数次元の実験により、adavaeは生成および表現モデリングにおいて、トレーニング中にアクティベートパラメータを追加して15\%未満でも、より優れた言語体系化が可能であることが検証された。
我々のコードは \url{https://github.com/ImKeTT/adavae} で入手できる。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。