論文の概要: DACT-BERT: Differentiable Adaptive Computation Time for an Efficient
BERT Inference
- arxiv url: http://arxiv.org/abs/2109.11745v1
- Date: Fri, 24 Sep 2021 04:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 00:33:16.604527
- Title: DACT-BERT: Differentiable Adaptive Computation Time for an Efficient
BERT Inference
- Title(参考訳): DACT-BERT:効率的なBERT推論のための微分可能な適応計算時間
- Authors: Crist\'obal Eyzaguirre, Felipe del R\'io, Vladimir Araujo, \'Alvaro
Soto
- Abstract要約: DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。
DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。
我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
- 参考スコア(独自算出の注目度): 3.375478015832455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained language models have shown remarkable results in
diverse NLP applications. Unfortunately, these performance gains have been
accompanied by a significant increase in computation time and model size,
stressing the need to develop new or complementary strategies to increase the
efficiency of these models. In this paper we propose DACT-BERT, a
differentiable adaptive computation time strategy for BERT-like models.
DACT-BERT adds an adaptive computational mechanism to BERT's regular processing
pipeline, which controls the number of Transformer blocks that need to be
executed at inference time. By doing this, the model learns to combine the most
appropriate intermediate representations for the task at hand. Our experiments
demonstrate that our approach, when compared to the baselines, excels on a
reduced computational regime and is competitive in other less restrictive ones.
- Abstract(参考訳): 大規模事前学習型言語モデルは多様なNLPアプリケーションにおいて顕著な結果を示した。
残念なことに、これらのパフォーマンス向上は計算時間とモデルサイズを大幅に増加させ、これらのモデルの効率を高めるために新しいまたは補完的な戦略を開発する必要性を強調した。
本稿では, BERT 型モデルの適応時間戦略である DACT-BERT を提案する。
DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。
これを行うことで、モデルは、手元にあるタスクの最も適切な中間表現を組み合わせることを学ぶ。
我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - FastBERT: a Self-distilling BERT with Adaptive Inference Time [14.207970599841218]
我々のモデルは、12の英語と中国語のデータセットで有望な結果を得る。
スピードアップしきい値が異なる場合、BERTの1倍から12倍の範囲でスピードアップすることができる。
論文 参考訳(メタデータ) (2020-04-05T12:29:20Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。