論文の概要: Dancing along Battery: Enabling Transformer with Run-time
Reconfigurability on Mobile Devices
- arxiv url: http://arxiv.org/abs/2102.06336v1
- Date: Fri, 12 Feb 2021 03:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:07:13.070860
- Title: Dancing along Battery: Enabling Transformer with Run-time
Reconfigurability on Mobile Devices
- Title(参考訳): バッテリーと共に踊る - モバイルデバイス上での実行時間再構成可能なトランスフォーマーの実現
- Authors: Yuhong Song, Weiwen Jiang, Bingbing Li, Panjie Qi, Qingfeng Zhuge,
Edwin Hsing-Mean Sha, Sakyasingha Dasgupta, Yiyu Shi, Caiwen Ding
- Abstract要約: この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。
これにより、Transformerベースの大規模自然言語処理(NLP)モデルは、リソース制約のあるモバイルデバイス上で効率的に実行される。
その結果、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。
- 参考スコア(独自算出の注目度): 14.474002760561325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A pruning-based AutoML framework for run-time reconfigurability, namely RT3,
is proposed in this work. This enables Transformer-based large Natural Language
Processing (NLP) models to be efficiently executed on resource-constrained
mobile devices and reconfigured (i.e., switching models for dynamic hardware
conditions) at run-time. Such reconfigurability is the key to save energy for
battery-powered mobile devices, which widely use dynamic voltage and frequency
scaling (DVFS) technique for hardware reconfiguration to prolong battery life.
In this work, we creatively explore a hybrid block-structured pruning (BP) and
pattern pruning (PP) for Transformer-based models and first attempt to combine
hardware and software reconfiguration to maximally save energy for
battery-powered mobile devices. Specifically, RT3 integrates two-level
optimizations: First, it utilizes an efficient BP as the first-step compression
for resource-constrained mobile devices; then, RT3 heuristically generates a
shrunken search space based on the first level optimization and searches
multiple pattern sets with diverse sparsity for PP via reinforcement learning
to support lightweight software reconfiguration, which corresponds to available
frequency levels of DVFS (i.e., hardware reconfiguration). At run-time, RT3 can
switch the lightweight pattern sets within 45ms to guarantee the required
real-time constraint at different frequency levels. Results further show that
RT3 can prolong battery life over 4x improvement with less than 1% accuracy
loss for Transformer and 1.5% score decrease for DistilBERT.
- Abstract(参考訳): この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。
これにより、Transformerベースの大規模自然言語処理(NLP)モデルをリソース制約のあるモバイルデバイス上で効率的に実行し、実行時に再構成(動的ハードウェア条件のモデルの変更)を行うことができる。
このような再構成性は、バッテリー駆動のモバイルデバイスの省エネの鍵であり、ハードウェア再構成のために動的電圧および周波数スケーリング(dvfs)技術が広く使われている。
本研究では,トランスフォーマーモデルのためのブロック構造プルーニング(bp)とパターンプルーニング(pp)のハイブリッドを創造的に検討し,まずハードウェアとソフトウェアの再構成を組み合わせることで,バッテリ駆動モバイルデバイスの省エネを図る。
RT3は、リソース制約のあるモバイルデバイスの第一段階の圧縮として効率的なBPを使用し、その後RT3は第一段階の最適化に基づいてシャーンケン検索空間をヒューリスティックに生成し、強化学習によりPPの多様な幅を持つ複数のパターン集合を検索し、DVFS(ハードウェア再構成)の利用可能な周波数レベルに対応する軽量なソフトウェア再構成をサポートする。
実行時には、RT3は45ms以内の軽量パターンセットを切り替えて、異なる周波数レベルのリアルタイム制約を保証できる。
さらに、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。
関連論文リスト
- Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Accelerating Framework of Transformer by Hardware Design and Model
Compression Co-Optimization [3.5862583389869487]
巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。
本稿では,Transformerのデプロイメント課題に対処するアルゴリズムとハードウェアクローズドループアクセラレーションフレームワークを提案する。
本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-10-19T14:57:11Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Dynamic Transformer for Efficient Machine Translation on Embedded
Devices [0.9786690381850356]
利用可能なリソースに基づいてトランスフォーマーアーキテクチャを任意のタイミングでスケールする機械翻訳モデルを提案する。
提案手法である"Dynamic-HAT"では,HAT SuperTransformerをバックボーンとして,精度-レイテンシのトレードオフの異なるSubTransformerを探索する。
Dynamic-HATはJetson Nano上でテストされており、提案手法ではスーパートランスフォーマーから直接サンプリングされたサブトランスフォーマーをスイッチング時間1sで使用する。
論文 参考訳(メタデータ) (2021-07-17T07:36:29Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Lite Transformer with Long-Short Range Attention [31.946796118788285]
エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。
Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。
注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
論文 参考訳(メタデータ) (2020-04-24T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。