Fugu-MT 論文翻訳(概要): DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference

論文の概要: DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference

arxiv url: http://arxiv.org/abs/2109.11745v1
Date: Fri, 24 Sep 2021 04:45:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-28 00:33:16.604527
Title: DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference
Title（参考訳）: DACT-BERT:効率的なBERT推論のための微分可能な適応計算時間
Authors: Crist\'obal Eyzaguirre, Felipe del R\'io, Vladimir Araujo, \'Alvaro Soto
Abstract要約: DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。 DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
参考スコア（独自算出の注目度）: 3.375478015832455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale pre-trained language models have shown remarkable results in diverse NLP applications. Unfortunately, these performance gains have been accompanied by a significant increase in computation time and model size, stressing the need to develop new or complementary strategies to increase the efficiency of these models. In this paper we propose DACT-BERT, a differentiable adaptive computation time strategy for BERT-like models. DACT-BERT adds an adaptive computational mechanism to BERT's regular processing pipeline, which controls the number of Transformer blocks that need to be executed at inference time. By doing this, the model learns to combine the most appropriate intermediate representations for the task at hand. Our experiments demonstrate that our approach, when compared to the baselines, excels on a reduced computational regime and is competitive in other less restrictive ones.
Abstract（参考訳）: 大規模事前学習型言語モデルは多様なNLPアプリケーションにおいて顕著な結果を示した。残念なことに、これらのパフォーマンス向上は計算時間とモデルサイズを大幅に増加させ、これらのモデルの効率を高めるために新しいまたは補完的な戦略を開発する必要性を強調した。本稿では, BERT 型モデルの適応時間戦略である DACT-BERT を提案する。 DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。これを行うことで、モデルは、手元にあるタスクの最も適切な中間表現を組み合わせることを学ぶ。我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。

関連論文リスト

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文参考訳（メタデータ） (2023-07-26T07:18:50Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Design and Prototyping Distributed CNN Inference Acceleration in Edge Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-11-24T19:48:30Z)
QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。 Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文参考訳（メタデータ） (2022-10-31T07:42:52Z)
Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文参考訳（メタデータ） (2020-06-16T18:43:31Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)
FastBERT: a Self-distilling BERT with Adaptive Inference Time [14.207970599841218]
我々のモデルは、12の英語と中国語のデータセットで有望な結果を得る。スピードアップしきい値が異なる場合、BERTの1倍から12倍の範囲でスピードアップすることができる。
論文参考訳（メタデータ） (2020-04-05T12:29:20Z)
TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文参考訳（メタデータ） (2020-02-14T22:44:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。