論文の概要: DeFormer: Decomposing Pre-trained Transformers for Faster Question
Answering
- arxiv url: http://arxiv.org/abs/2005.00697v1
- Date: Sat, 2 May 2020 04:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:31:18.709154
- Title: DeFormer: Decomposing Pre-trained Transformers for Faster Question
Answering
- Title(参考訳): DeFormer: より高速な質問回答のために、トレーニング済みのトランスフォーマーを分解する
- Authors: Qingqing Cao, Harsh Trivedi, Aruna Balasubramanian, Niranjan
Balasubramanian
- Abstract要約: トランスフォーマーベースのQAモデルは、質問と入力通路の両方にわたる入力ワイド自己アテンションを使用する。
DeFormerを導入し、下層層における全自己注意を質問全体および横断的自己注意に置き換える。
BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
- 参考スコア(独自算出の注目度): 22.178201429268103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based QA models use input-wide self-attention -- i.e. across both
the question and the input passage -- at all layers, causing them to be slow
and memory-intensive. It turns out that we can get by without input-wide
self-attention at all layers, especially in the lower layers. We introduce
DeFormer, a decomposed transformer, which substitutes the full self-attention
with question-wide and passage-wide self-attentions in the lower layers. This
allows for question-independent processing of the input text representations,
which in turn enables pre-computing passage representations reducing runtime
compute drastically. Furthermore, because DeFormer is largely similar to the
original model, we can initialize DeFormer with the pre-training weights of a
standard transformer, and directly fine-tune on the target QA dataset. We show
DeFormer versions of BERT and XLNet can be used to speed up QA by over 4.3x and
with simple distillation-based losses they incur only a 1% drop in accuracy. We
open source the code at https://github.com/StonyBrookNLP/deformer.
- Abstract(参考訳): トランスフォーマーベースのQAモデルでは、すべてのレイヤにおいて、インプットワイドな自己アテンション(すなわち、質問と入力パスの両方)が使用される。
すべての層、特に下位層において、インプットワイドな自己注意なしに達成できることがわかりました。
分割変換器であるDeFormerを導入し,下層層における全自己注意を質問範囲,通過範囲の自己注意に置き換える。
これにより、入力テキスト表現の疑問に依存しない処理が可能となり、それによって実行時計算を大幅に削減できる。
さらに、DeFormerはオリジナルのモデルとほとんど同じなので、標準トランスフォーマーのトレーニング前の重みでDeFormerを初期化し、ターゲットのQAデータセットに直接微調整することができます。
BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
ソースコードはhttps://github.com/StonyBrookNLP/deformerで公開しています。
関連論文リスト
- Value Residual Learning For Alleviating Attention Concentration In Transformers [14.898656879574622]
複数の注意層を積み重ねると 注意集中につながる
この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。
本稿では,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
論文 参考訳(メタデータ) (2024-10-23T14:15:07Z) - IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs [8.830921747658925]
既存のTransformerベースのモデルの1つの制限は、入力として非常に長いシーケンスを扱うことができないことである。
推論時に自己注意を加速する新しい手法を提案する。
我々は、元の事前訓練されたモデルの精度の98.6%から99.6%を維持しながら、2.73倍から7.63倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-05-05T08:18:42Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:35:08Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Block-Skim: Efficient Question Answering for Transformer [25.429122678247452]
本稿では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-Skimを提案する。
さらに,下層の早期に不要な位置に対応する隠蔽状態の訓練を行い,推定時間の大幅な高速化を実現した。
Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2021-12-16T01:45:33Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。