論文の概要: Transkimmer: Transformer Learns to Layer-wise Skim
- arxiv url: http://arxiv.org/abs/2205.07324v1
- Date: Sun, 15 May 2022 16:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:48:09.909329
- Title: Transkimmer: Transformer Learns to Layer-wise Skim
- Title(参考訳): Transkimmer:トランスフォーマーがレイヤワイドスキーを学ぶ
- Authors: Yue Guan, Zhengyi Li, Jingwen Leng, Zhouhan Lin, Minyi Guo
- Abstract要約: Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
- 参考スコア(独自算出の注目度): 17.188613474427054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture has become the de-facto model for many machine
learning tasks from natural language processing and computer vision. As such,
improving its computational efficiency becomes paramount. One of the major
computational inefficiency of Transformer-based models is that they spend the
identical amount of computation throughout all layers. Prior works have
proposed to augment the Transformer model with the capability of skimming
tokens to improve its computational efficiency. However, they suffer from not
having effectual and end-to-end optimization of the discrete skimming
predictor. To address the above limitations, we propose the Transkimmer
architecture, which learns to identify hidden state tokens that are not
required by each layer. The skimmed tokens are then forwarded directly to the
final output, thus reducing the computation of the successive layers. The key
idea in Transkimmer is to add a parameterized predictor before each layer that
learns to make the skimming decision. We also propose to adopt
reparameterization trick and add skim loss for the end-to-end training of
Transkimmer. Transkimmer achieves 10.97x average speedup on GLUE benchmark
compared with vanilla BERT-base baseline with less than 1% accuracy
degradation.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンから多くの機械学習タスクのデファクトモデルとなっている。
そのため、計算効率の向上が最重要となる。
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ計算量を使うことである。
以前の研究は、その計算効率を改善するためにトークンをスキミングする能力でトランスフォーマーモデルを強化することを提案した。
しかし、彼らは離散スキミング予測器の効率とエンドツーエンドの最適化に苦しむ。
上記の制限に対処するために、各レイヤが要求しない隠れた状態トークンを識別することを学ぶtranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
Transkimmerのキーとなるアイデアは、各レイヤの前にパラメータ化予測子を追加して、スキミングの決定を学習することだ。
また,トランスキマーのエンド・ツー・エンドトレーニングに再パラメータ化トリックを適用し,スキムロスを追加することを提案する。
Transkimmerは、ベニラBERTベースラインと比較して、GLUEベンチマークで平均10.97倍のスピードアップを達成する。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Block-Skim: Efficient Question Answering for Transformer [25.429122678247452]
本稿では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-Skimを提案する。
さらに,下層の早期に不要な位置に対応する隠蔽状態の訓練を行い,推定時間の大幅な高速化を実現した。
Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2021-12-16T01:45:33Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。