論文の概要: Block-Skim: Efficient Question Answering for Transformer
- arxiv url: http://arxiv.org/abs/2112.08560v1
- Date: Thu, 16 Dec 2021 01:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:11:24.119461
- Title: Block-Skim: Efficient Question Answering for Transformer
- Title(参考訳): block-skim: トランスフォーマーの効率的な質問応答
- Authors: Yue Guan, Zhengyi Li, Jingwen Leng, Zhouhan Lin, Minyi Guo, Yuhao Zhu
- Abstract要約: 本稿では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-Skimを提案する。
さらに,下層の早期に不要な位置に対応する隠蔽状態の訓練を行い,推定時間の大幅な高速化を実現した。
Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 25.429122678247452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved promising results on natural language
processing (NLP) tasks including extractive question answering (QA). Common
Transformer encoders used in NLP tasks process the hidden states of all input
tokens in the context paragraph throughout all layers. However, different from
other tasks such as sequence classification, answering the raised question does
not necessarily need all the tokens in the context paragraph. Following this
motivation, we propose Block-skim, which learns to skim unnecessary context in
higher hidden layers to improve and accelerate the Transformer performance. The
key idea of Block-Skim is to identify the context that must be further
processed and those that could be safely discarded early on during inference.
Critically, we find that such information could be sufficiently derived from
the self-attention weights inside the Transformer model. We further prune the
hidden states corresponding to the unnecessary positions early in lower layers,
achieving significant inference-time speedup. To our surprise, we observe that
models pruned in this way outperform their full-size counterparts. Block-Skim
improves QA models' accuracy on different datasets and achieves 3 times speedup
on BERT-base model.
- Abstract(参考訳): トランスフォーマーモデルは自然言語処理(NLP)タスクにおいて,抽出質問応答(QA)を含む有望な結果を得た。
NLPタスクで使用される共通トランスフォーマーエンコーダは、すべてのレイヤにわたってコンテキスト段落内のすべての入力トークンの隠れ状態を処理する。
しかし、シーケンス分類のような他のタスクとは異なり、隆起した質問に答えるにはコンテキスト段落のすべてのトークンが必ずしも必要ではない。
そこで本研究では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-skimを提案する。
Block-Skimのキーとなる考え方は、さらなる処理が必要なコンテキストと、推論の早い段階で安全に破棄できるコンテキストを識別することだ。
批判的に、これらの情報はトランスフォーマーモデル内の自己注意重みから十分に導出できる。
我々はさらに,低層の初期における不要な位置に対応する隠れた状態を推理し,大幅な推論時間短縮を実現する。
驚いたことに、このやり方でモデルが、フルサイズのモデルに勝っているのが観察された。
Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
関連論文リスト
- Block Transformer: Global-to-Local Language Modeling for Fast Inference [41.361135177431336]
Block Transformerアーキテクチャは階層的グローバル・ローカル・モデリングを採用し、自己アテンションの推論ボトルネックを軽減する自動回帰トランスフォーマーである。
本研究では,グローバル・ローカル・モデリングの新たな応用を通じて,言語モデル推論を最適化する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T17:45:26Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - DeFormer: Decomposing Pre-trained Transformers for Faster Question
Answering [22.178201429268103]
トランスフォーマーベースのQAモデルは、質問と入力通路の両方にわたる入力ワイド自己アテンションを使用する。
DeFormerを導入し、下層層における全自己注意を質問全体および横断的自己注意に置き換える。
BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
論文 参考訳(メタデータ) (2020-05-02T04:28:22Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。