論文の概要: DeLighT: Deep and Light-weight Transformer
- arxiv url: http://arxiv.org/abs/2008.00623v2
- Date: Thu, 11 Feb 2021 21:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:48:38.653957
- Title: DeLighT: Deep and Light-weight Transformer
- Title(参考訳): 喜び:深くて軽い変圧器
- Authors: Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer,
Hannaneh Hajishirzi
- Abstract要約: DeLighTは、パラメータが大幅に少ない標準のトランスフォーマーベースモデルと同じような、あるいは優れたパフォーマンスを提供する。
DeLighTは、DeLighT変換、ディープおよびライトウェイト変換、および(2)ブロック単位のスケーリングを用いて、(1)各トランスフォーマーブロック内のパラメータをより効率的に割り当てる。
- 参考スコア(独自算出の注目度): 116.9850555964728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a deep and light-weight transformer, DeLighT, that delivers
similar or better performance than standard transformer-based models with
significantly fewer parameters. DeLighT more efficiently allocates parameters
both (1) within each Transformer block using the DeLighT transformation, a deep
and light-weight transformation, and (2) across blocks using block-wise
scaling, which allows for shallower and narrower DeLighT blocks near the input
and wider and deeper DeLighT blocks near the output. Overall, DeLighT networks
are 2.5 to 4 times deeper than standard transformer models and yet have fewer
parameters and operations. Experiments on benchmark machine translation and
language modeling tasks show that DeLighT matches or improves the performance
of baseline Transformers with 2 to 3 times fewer parameters on average. Our
source code is available at: \url{https://github.com/sacmehta/delight}
- Abstract(参考訳): 我々は,標準のトランスフォーマーモデルと非常に少ないパラメータで同等あるいは優れた性能を提供する,深層で軽量なトランスフォーマー,delightを導入する。
delight は (1) それぞれのトランスフォーマーブロック内で、delight 変換、深層および軽量変換、 (2) ブロックをまたいだblock-wise scaling を使ってパラメータを割り当て、入力付近で浅く、狭く、出力付近でより広く、より深いdelightブロックを割り当てる。
概して、喜びのネットワークは標準のトランスフォーマーモデルより2.5倍から4倍深く、パラメータや操作は少ない。
ベンチマーク機械翻訳と言語モデリングタスクの実験は、DeLighTが平均2~3倍のパラメータでベースライントランスフォーマーのパフォーマンスを一致または改善していることを示している。
ソースコードは \url{https://github.com/sacmehta/delight} で利用可能です。
関連論文リスト
- Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Lite Transformer with Long-Short Range Attention [31.946796118788285]
エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。
Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。
注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
論文 参考訳(メタデータ) (2020-04-24T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。