論文の概要: AdapLeR: Speeding up Inference by Adaptive Length Reduction
- arxiv url: http://arxiv.org/abs/2203.08991v1
- Date: Wed, 16 Mar 2022 23:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:03:57.255004
- Title: AdapLeR: Speeding up Inference by Adaptive Length Reduction
- Title(参考訳): AdapLeR: 適応長短縮による推論の高速化
- Authors: Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar
- Abstract要約: 本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 15.57872065467772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have shown stellar performance in various
downstream tasks. But, this usually comes at the cost of high latency and
computation, hindering their usage in resource-limited settings. In this work,
we propose a novel approach for reducing the computational cost of BERT with
minimal loss in downstream performance. Our method dynamically eliminates less
contributing tokens through layers, resulting in shorter lengths and
consequently lower computational cost. To determine the importance of each
token representation, we train a Contribution Predictor for each layer using a
gradient-based saliency method. Our experiments on several diverse
classification tasks show speedups up to 22x during inference time without much
sacrifice in performance. We also validate the quality of the selected tokens
in our method using human annotations in the ERASER benchmark. In comparison to
other widely used strategies for selecting important tokens, such as saliency
and attention, our proposed method has a significantly lower false positive
rate in generating rationales. Our code is freely available at
https://github.com/amodaresi/AdapLeR .
- Abstract(参考訳): 事前訓練された言語モデルは、様々な下流タスクで恒星の性能を示している。
しかし、これは通常、高いレイテンシと計算コストを伴い、リソース制限された設定での使用を妨げる。
本研究では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間の寄与の少ないトークンを動的に除去し,より短い長さと計算コストを低減させる。
トークン表現の重要性を判定するために,勾配法を用いて各層に対する寄与予測器を訓練する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
また,ERASERベンチマークにおける人間のアノテーションを用いて,選択したトークンの品質を検証した。
塩分や注意などの重要なトークンを選定するための他の広く使われる戦略と比較すると,提案手法は理論的根拠を生成する際の偽陽性率を有意に低下させる。
私たちのコードはhttps://github.com/amodaresi/AdapLeR で無償で利用可能です。
関連論文リスト
- AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Speeding Up Speech Synthesis In Diffusion Models By Reducing Data
Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive
Transformers [18.963110713461045]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Revisiting Token Dropping Strategy in Efficient BERT Pretraining [102.24112230802011]
トークンドロップは、複数の中間層で入力トークンのサブセットの計算をスキップすることで、BERTのようなマスク付き言語モデルの事前トレーニングを高速化する戦略である。
しかし,トークンのドロップは意味的損失問題を起こしやすく,意味論的タスクの処理に不足していることが実証的に判明した。
そこで本研究では,トークンのドロップを改善するために,シンプルで効果的な意味一貫性学習法(ScTD)を提案する。
論文 参考訳(メタデータ) (2023-05-24T15:59:44Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。