論文の概要: DoT: An efficient Double Transformer for NLP tasks with tables
- arxiv url: http://arxiv.org/abs/2106.00479v1
- Date: Tue, 1 Jun 2021 13:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:24:27.563936
- Title: DoT: An efficient Double Transformer for NLP tasks with tables
- Title(参考訳): DoT:テーブル付きNLPタスクのための効率的なダブルトランス
- Authors: Syrine Krichene, Thomas M\"uller and Julian Martin Eisenschlos
- Abstract要約: DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based approaches have been successfully used to obtain
state-of-the-art accuracy on natural language processing (NLP) tasks with
semi-structured tables. These model architectures are typically deep, resulting
in slow training and inference, especially for long inputs. To improve
efficiency while maintaining a high accuracy, we propose a new architecture,
DoT, a double transformer model, that decomposes the problem into two
sub-tasks: A shallow pruning transformer that selects the top-K tokens,
followed by a deep task-specific transformer that takes as input those K
tokens. Additionally, we modify the task-specific attention to incorporate the
pruning scores. The two transformers are jointly trained by optimizing the
task-specific loss. We run experiments on three benchmarks, including
entailment and question-answering. We show that for a small drop of accuracy,
DoT improves training and inference time by at least 50%. We also show that the
pruning transformer effectively selects relevant tokens enabling the end-to-end
model to maintain similar accuracy as slower baseline models. Finally, we
analyse the pruning and give some insight into its impact on the task model.
- Abstract(参考訳): 半構造化テーブルを用いた自然言語処理(NLP)タスクにおける最先端の精度を得るためにトランスフォーマーベースのアプローチが成功している。
これらのモデルアーキテクチャは一般的に深く、特に長い入力に対してトレーニングや推論が遅くなる。
高い精度を維持しつつ効率を向上させるために、問題を2つのサブタスクに分解する新しいアーキテクチャ、dot(double transformer model)を提案している。
さらに,タスク固有の注意点を変更し,プルーニングスコアを組み込む。
2つのトランスフォーマーはタスク固有の損失を最適化することで共同で訓練される。
詳細と質問応答を含む3つのベンチマークで実験を行う。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
また,pruning transformerは,エンド・ツー・エンドモデルが低速なベースラインモデルと同様の精度を維持するための関連するトークンを効果的に選択できることを示す。
最後に、刈り取りを分析し、そのタスクモデルへの影響について見識を与えます。
関連論文リスト
- A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。