論文の概要: AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for
Language Modeling
- arxiv url: http://arxiv.org/abs/2205.05862v1
- Date: Thu, 12 May 2022 03:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:50:18.412195
- Title: AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for
Language Modeling
- Title(参考訳): AdaVAE:言語モデリングのための変分オートエンコーダにおける適応型GPT-2探索
- Authors: Haoqin Tu, Zhongliang Yang, Jinshuai Yang, Siyu Zhang, Yongfeng Huang
- Abstract要約: 変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
既存のVAEベースの言語モデルは、基本的なRNNを使用するか、ダウンストリームタスクに2つの訓練済み言語モデル(PLM)を使用する。
本稿では,適応型GPT-2(AdaVAE)を用いた最初のVAEフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 33.18577107062907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational Auto-Encoder (VAE) has become the de-facto learning paradigm in
achieving both representation learning and generation for natural language.
However, existing VAE-based language models either employ elementary RNNs,
which is not powerful to handle multi-tasks, or fine-tunes two pre-trained
language models (PLMs) for any downstream task, which requires huge energy
consumption. In this paper, we introduce the first VAE framework empowered with
adaptive GPT-2s (AdaVAE). Different from mentioned systems, we unify both the
encoder and decoder of VAE model using GPT-2s with adaptive parameter-efficient
components. Experiments from multiple dimensions validate that AdaVAE is
competent to better organize language in generation and representation
modeling, even with less than $15\%$ additionally activated parameters during
training. Our code is available at \url{https://github.com/ImKeTT/adav ae}.
- Abstract(参考訳): 変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
しかし、既存のVAEベースの言語モデルでは、マルチタスクを扱うには強力でない基本RNNを使うか、ダウンストリームタスクに対して2つの事前訓練言語モデル(PLM)を微調整する。
本稿では,適応型GPT-2(AdaVAE)を用いた初のVAEフレームワークを提案する。
上記のシステムと異なり,適応パラメータ効率成分を用いたgpt-2を用いてvaeモデルのエンコーダとデコーダを統一する。
複数次元の実験により、adavaeは生成および表現モデリングにおいて、トレーニング中にアクティベートパラメータを追加して15\%未満でも、より優れた言語体系化が可能であることが検証された。
我々のコードは \url{https://github.com/ImKeTT/adav ae} で入手できる。
関連論文リスト
- Improving Automatic Speech Recognition for Non-Native English with
Transfer Learning and Language Model Decoding [6.68194398006805]
訓練済みwav2vec 2.0モデル citebaevski 2020wav2vec,xu2021self のL1およびL2訓練条件下での微調整について検討した。
We found that that the large self-trained wav2vec 2.0 may be internalizing enough decoding knowledge for clean L1 speech, this is not hold for L2 speech。
論文 参考訳(メタデータ) (2022-02-10T18:13:32Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。