論文の概要: Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers
- arxiv url: http://arxiv.org/abs/2101.00234v1
- Date: Fri, 1 Jan 2021 13:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 11:29:34.632777
- Title: Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers
- Title(参考訳): Subformer: 生成変換器のパラメータ効率向上のためのウェイトシェアリング
- Authors: Machel Reid, Edison Marrese-Taylor and Yutaka Matsuo
- Abstract要約: パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
- 参考スコア(独自算出の注目度): 16.88840622945725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of the Transformer can arguably be described as a driving force
behind many of the recent advances in natural language processing. However,
despite their sizeable performance improvements, as recently shown, the model
is severely over-parameterized, being parameter inefficient and computationally
expensive to train. Inspired by the success of parameter-sharing in pretrained
deep contextualized word representation encoders, we explore parameter-sharing
methods in Transformers, with a specific focus on encoder-decoder models for
sequence-to-sequence tasks such as neural machine translation. We perform an
analysis of different parameter sharing/reduction methods and develop the
Subformer, a parameter efficient Transformer-based model which combines the
newly proposed Sandwich-style parameter sharing technique - designed to
overcome the deficiencies in naive cross-layer parameter sharing for generative
models - and self-attentive embedding factorization (SAFE). Experiments on
machine translation, abstractive summarization, and language modeling show that
the Subformer can outperform the Transformer even when using significantly
fewer parameters.
- Abstract(参考訳): トランスフォーマーの出現は、自然言語処理における最近の多くの進歩の原動力として説明できるだろう。
しかし、最近示されたように、大きな性能改善にもかかわらず、モデルはパラメータ非効率であり、訓練には計算コストがかかる。
事前学習された単語表現エンコーダにおけるパラメータ共有の成功に触発されて,ニューラルマシン翻訳などのシーケンス-シーケンスタスクのためのエンコーダ-デコーダモデルに注目し,トランスフォーマにおけるパラメータ共有手法について検討した。
本研究では,異なるパラメータ共有/還元法の解析を行い,新たに提案するサンドイッチ型パラメータ共有手法と自己着脱型埋め込み因子化(safe)を組み合わせた,パラメータ効率の高いトランスフォーマを開発した。
機械翻訳、抽象要約、言語モデリングの実験により、サブフォームは、非常に少ないパラメータを使用してもトランスフォーマーよりも優れることが示された。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。