Fugu-MT 論文翻訳(概要): EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference

論文の概要: EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference

arxiv url: http://arxiv.org/abs/2011.14203v5
Date: Mon, 6 Sep 2021 03:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-19 19:38:07.344797
Title: EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference
Title（参考訳）: EdgeBERT: レイテンシ対応マルチタスクNLP推論のための文レベルエネルギー最適化
Authors: Thierry Tambe, Coleman Hooper, Lillian Pentecost, Tianyu Jia, En-Yu Yang, Marco Donato, Victor Sanh, Paul N. Whatmough, Alexander M. Rush, David Brooks and Gu-Yeon Wei
Abstract要約: BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
参考スコア（独自算出の注目度）: 82.1584439276834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based language models such as BERT provide significant accuracy improvement for a multitude of natural language processing (NLP) tasks. However, their hefty computational and memory demands make them challenging to deploy to resource-constrained edge platforms with strict latency requirements. We present EdgeBERT, an in-depth algorithm-hardware co-design for latency-aware energy optimization for multi-task NLP. EdgeBERT employs entropy-based early exit predication in order to perform dynamic voltage-frequency scaling (DVFS), at a sentence granularity, for minimal energy consumption while adhering to a prescribed target latency. Computation and memory footprint overheads are further alleviated by employing a calibrated combination of adaptive attention span, selective network pruning, and floating-point quantization. Furthermore, in order to maximize the synergistic benefits of these algorithms in always-on and intermediate edge computing settings, we specialize a 12nm scalable hardware accelerator system, integrating a fast-switching low-dropout voltage regulator (LDO), an all-digital phase-locked loop (ADPLL), as well as, high-density embedded non-volatile memories (eNVMs) wherein the sparse floating-point bit encodings of the shared multi-task parameters are carefully stored. Altogether, latency-aware multi-task NLP inference acceleration on the EdgeBERT hardware system generates up to 7x, 2.5x, and 53x lower energy compared to the conventional inference without early stopping, the latency-unbounded early exit approach, and CUDA adaptations on an Nvidia Jetson Tegra X2 mobile GPU, respectively.
Abstract（参考訳）: BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。しかし、その膨大な計算とメモリ要求は、厳しいレイテンシ要求でリソース制約のあるエッジプラットフォームへのデプロイを困難にしている。本稿では,マルチタスクnlpのレイテンシ認識エネルギ最適化のための詳細なアルゴリズム・ハードウエア共同設計であるedgebertを提案する。 EdgeBERTはエントロピーに基づく早期出口予測を用いて、動的電圧周波数スケーリング(DVFS)を文粒度で行う。さらに、アダプティブアテンダスパン、選択的ネットワークプルーニング、浮動小数点量子化の校正の組み合わせにより、計算とメモリフットプリントのオーバーヘッドが軽減される。さらに、常時オンおよび中間エッジコンピューティング設定におけるこれらのアルゴリズムの相乗効果を最大化するために、高速スイッチング低ドロップアウト電圧調整器(LDO)、全ディジタル位相同期ループ(ADPLL)、および共有マルチタスクパラメータのスパース浮動小数点ビット符号化を慎重に記憶する高密度な組込み不揮発性メモリ(eNVM)を統合する12nmスケールのハードウェアアクセラレータシステムを特化する。 EdgeBERTハードウェアシステム上でのレイテンシを意識したマルチタスクNLP推論の高速化は、早期停止のない従来の推論と比較して最大7倍、2.5倍、53倍の低エネルギーを発生し、遅延非バウンド早期終了アプローチと、Nvidia Jetson Tegra X2モバイルGPU上のCUDA適応をそれぞれ生成する。

関連論文リスト

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文参考訳（メタデータ） (2025-11-24T08:46:36Z)
HOMI: Ultra-Fast EdgeAI platform for Event Cameras [1.9923531555025618]
イベントカメラは、非同期操作とスパースでイベント駆動の出力のため、エッジロボティクスアプリケーションに大きな利点をもたらす。我々は、Xilinx Zynq UltraScale+MPSoC FPGAチップを備えたProphesee IMX636イベントセンサチップからなる、超低レイテンシでエンドツーエンドのエッジAIプラットフォームを提案する。
論文参考訳（メタデータ） (2025-08-18T05:47:48Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
EdgeInfinite-Instruct: Bridging SFT-Based Optimization and NPU-Level Efficiency for Edge Devices [3.5487823143282657]
本稿では,要約や質問応答といった長文タスクに適したS-SFT(Seegmented Supervised Fine-Tuning)戦略を提案する。長文ベンチマークと実世界のモバイルタスクを用いた実験により,NPU加速エッジデバイス上での効率を維持しつつ,ドメイン固有性能を向上させることができた。
論文参考訳（メタデータ） (2025-08-01T07:03:16Z)
SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST [39.79758414095764]
スパイキングニューラルネットワーク(SNN)は、イベント駆動で時間的に疎らな性質のため、有望である。本稿では,オープンソースのSpikeer+フレームワークを用いて手書き文字認識のための最適化SNNアクセラレータを生成する。
論文参考訳（メタデータ） (2025-07-04T08:22:13Z)
Neural Substitute Solver for Efficient Edge Inference of Power Electronic Hybrid Dynamics [6.708926878153465]
リソース制約のあるエッジハードウェア上で、本質的にハイブリッドな連続分散ダイナミクスを効率的に推論する方法は、依然として大きな課題である。この手紙は、計算コストを大幅に削減した高速な正確な推論を目的としたニューラルネットワークベースのフレームワークであるNSS(Neural substitutesolvr)アプローチをプロポーズする。
論文参考訳（メタデータ） (2025-07-03T19:52:32Z)
SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文参考訳（メタデータ） (2024-11-05T06:59:02Z)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文参考訳（メタデータ） (2024-10-16T12:45:35Z)
Dynamic Range Reduction via Branch-and-Bound [1.533133219129073]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2024-09-17T03:07:56Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。 USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文参考訳（メタデータ） (2023-12-19T02:27:22Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文参考訳（メタデータ） (2022-08-07T05:48:38Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Non-Volatile Memory Array Based Quantization- and Noise-Resilient LSTM Neural Networks [1.5332481598232224]
本稿では,LSTMモデルへの量子化対応学習アルゴリズムの適用に焦点を当てる。 4ビットのNVM重みと4ビットのADC/DACしか必要とせず、浮動小数点点のベースラインとして同等のLSTMネットワーク性能が得られることを示した。提案したLSTM加速器のベンチマーク解析により、従来のデジタル手法に比べて少なくとも2.4倍の計算効率と40倍の面積効率が得られた。
論文参考訳（メタデータ） (2020-02-25T02:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。