論文の概要: Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search
- arxiv url: http://arxiv.org/abs/2010.07003v2
- Date: Fri, 11 Jun 2021 20:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:35:19.575136
- Title: Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search
- Title(参考訳): 長適応変圧器:一度は長減り、いつでも検索できる列車
- Authors: Gyuwan Kim and Kyunghyun Cho
- Abstract要約: 我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
- 参考スコア(独自算出の注目度): 84.94597821711808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite transformers' impressive accuracy, their computational cost is often
prohibitive to use with limited computational resources. Most previous
approaches to improve inference efficiency require a separate model for each
possible computational budget. In this paper, we extend PoWER-BERT (Goyal et
al., 2020) and propose Length-Adaptive Transformer that can be used for various
inference scenarios after one-shot training. We train a transformer with
LengthDrop, a structural variant of dropout, which stochastically determines a
sequence length at each layer. We then conduct a multi-objective evolutionary
search to find a length configuration that maximizes the accuracy and minimizes
the efficiency metric under any given computational budget. Additionally, we
significantly extend the applicability of PoWER-BERT beyond sequence-level
classification into token-level classification with Drop-and-Restore process
that drops word-vectors temporarily in intermediate layers and restores at the
last layer if necessary. We empirically verify the utility of the proposed
approach by demonstrating the superior accuracy-efficiency trade-off under
various setups, including span-based question answering and text
classification. Code is available at
https://github.com/clovaai/length-adaptive-transformer.
- Abstract(参考訳): トランスフォーマーの優れた精度にもかかわらず、計算コストはしばしば限られた計算資源での使用を禁じられている。
推論効率を改善するためのほとんどの以前のアプローチは、計算予算ごとに別々のモデルを必要とする。
本稿では,POWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は、各層におけるシーケンス長を確率的に決定するドロップアウトの構造変種であるLngthDropで変換器を訓練する。
次に,多目的進化探索を行い,その精度を最大化し,任意の計算予算下での効率測定を最小化する長さ構成を求める。
さらに,POWER-BERTの適用性を,中間層に一時的にワードベクターをドロップし,必要に応じて最終層に復元するDrop-and-Restoreプロセスを用いて,シーケンスレベルの分類を超えてトークンレベルの分類に拡張する。
提案手法の有用性を実証的に検証し,スパンベースの質問応答やテキスト分類など,様々な設定において優れた精度と効率のトレードオフを示す。
コードはhttps://github.com/clovaai/length-adaptive-transformerで入手できる。
関連論文リスト
- Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。