論文の概要: DPBERT: Efficient Inference for BERT based on Dynamic Planning
- arxiv url: http://arxiv.org/abs/2308.00108v1
- Date: Wed, 26 Jul 2023 07:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 11:13:10.728341
- Title: DPBERT: Efficient Inference for BERT based on Dynamic Planning
- Title(参考訳): DPBERT:動的計画に基づくBERTの効率的な推論
- Authors: Weixin Wu and Hankz Hankui Zhuo
- Abstract要約: 既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 11.680840266488884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale pre-trained language models such as BERT have contributed
significantly to the development of NLP. However, those models require large
computational resources, making it difficult to be applied to mobile devices
where computing power is limited. In this paper we aim to address the weakness
of existing input-adaptive inference methods which fail to take full advantage
of the structure of BERT. We propose Dynamic Planning in BERT, a novel
fine-tuning strategy that can accelerate the inference process of BERT through
selecting a subsequence of transformer layers list of backbone as a
computational path for an input sample. To do this, our approach adds a
planning module to the original BERT model to determine whether a layer is
included or bypassed during inference. Experimental results on the GLUE
benchmark exhibit that our method reduces latency to 75\% while maintaining
98\% accuracy, yielding a better accuracy-speed trade-off compared to
state-of-the-art input-adaptive methods.
- Abstract(参考訳): BERTのような大規模事前訓練型言語モデルは、NLPの開発に大きく貢献している。
しかし、これらのモデルには膨大な計算資源が必要であり、計算能力に制限のあるモバイルデバイスに適用することは困難である。
本稿では,BERTの構造を十分に活用できない既存の入力適応推論手法の弱点に対処することを目的とする。
本稿では,入力サンプルの計算経路としてバックボーンの変圧器層リストを選択することで,BERTの推論プロセスを高速化する新しい微調整手法であるBERTの動的プランニングを提案する。
これを実現するため、本手法では、推論中に層が含まれているかバイパスされているかを判断する計画モジュールを元のBERTモデルに追加する。
glueベンチマークによる実験の結果,98\%の精度を維持しつつ遅延を75\%まで低減し,最先端の入力適応法と比較して精度と速度のトレードオフが向上した。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - DACT-BERT: Differentiable Adaptive Computation Time for an Efficient
BERT Inference [3.375478015832455]
DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。
DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。
我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
論文 参考訳(メタデータ) (2021-09-24T04:45:55Z) - BERT-based Chinese Text Classification for Emergency Domain with a Novel
Loss Function [9.028459232146474]
本論文では,緊急事象報告分類問題に対する自動中国語テキスト分類法を提案する。
緊急イベントカテゴリの分布におけるデータ不均衡を克服するため,BERTモデルの性能向上を目的とした新たな損失関数を提案する。
提案手法は, 精度, 重み付き精度, 重み付きリコール, 重み付きF1値で最高の性能を示した。
論文 参考訳(メタデータ) (2021-04-09T05:25:00Z) - Learning Dynamic BERT via Trainable Gate Variables and a Bi-modal
Regularizer [36.74058297640735]
BERTモデルは様々な自然言語処理タスクで大きな成功を収めている。
重いモデルサイズと高い計算コストのため、このモデルは高いレイテンシに悩まされ、リソース制限されたデバイスに展開することは致命的である。
入力トークンに適用されたトレーニング可能なゲート変数とバイモーダル特性を持つ正規化器によるBERT上の動的推論手法を提案する。
論文 参考訳(メタデータ) (2021-02-19T03:59:23Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。