論文の概要: Dancing along Battery: Enabling Transformer with Run-time
Reconfigurability on Mobile Devices
- arxiv url: http://arxiv.org/abs/2102.06336v1
- Date: Fri, 12 Feb 2021 03:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:07:13.070860
- Title: Dancing along Battery: Enabling Transformer with Run-time
Reconfigurability on Mobile Devices
- Title(参考訳): バッテリーと共に踊る - モバイルデバイス上での実行時間再構成可能なトランスフォーマーの実現
- Authors: Yuhong Song, Weiwen Jiang, Bingbing Li, Panjie Qi, Qingfeng Zhuge,
Edwin Hsing-Mean Sha, Sakyasingha Dasgupta, Yiyu Shi, Caiwen Ding
- Abstract要約: この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。
これにより、Transformerベースの大規模自然言語処理(NLP)モデルは、リソース制約のあるモバイルデバイス上で効率的に実行される。
その結果、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。
- 参考スコア(独自算出の注目度): 14.474002760561325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A pruning-based AutoML framework for run-time reconfigurability, namely RT3,
is proposed in this work. This enables Transformer-based large Natural Language
Processing (NLP) models to be efficiently executed on resource-constrained
mobile devices and reconfigured (i.e., switching models for dynamic hardware
conditions) at run-time. Such reconfigurability is the key to save energy for
battery-powered mobile devices, which widely use dynamic voltage and frequency
scaling (DVFS) technique for hardware reconfiguration to prolong battery life.
In this work, we creatively explore a hybrid block-structured pruning (BP) and
pattern pruning (PP) for Transformer-based models and first attempt to combine
hardware and software reconfiguration to maximally save energy for
battery-powered mobile devices. Specifically, RT3 integrates two-level
optimizations: First, it utilizes an efficient BP as the first-step compression
for resource-constrained mobile devices; then, RT3 heuristically generates a
shrunken search space based on the first level optimization and searches
multiple pattern sets with diverse sparsity for PP via reinforcement learning
to support lightweight software reconfiguration, which corresponds to available
frequency levels of DVFS (i.e., hardware reconfiguration). At run-time, RT3 can
switch the lightweight pattern sets within 45ms to guarantee the required
real-time constraint at different frequency levels. Results further show that
RT3 can prolong battery life over 4x improvement with less than 1% accuracy
loss for Transformer and 1.5% score decrease for DistilBERT.
- Abstract(参考訳): この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。
これにより、Transformerベースの大規模自然言語処理(NLP)モデルをリソース制約のあるモバイルデバイス上で効率的に実行し、実行時に再構成(動的ハードウェア条件のモデルの変更)を行うことができる。
このような再構成性は、バッテリー駆動のモバイルデバイスの省エネの鍵であり、ハードウェア再構成のために動的電圧および周波数スケーリング(dvfs)技術が広く使われている。
本研究では,トランスフォーマーモデルのためのブロック構造プルーニング(bp)とパターンプルーニング(pp)のハイブリッドを創造的に検討し,まずハードウェアとソフトウェアの再構成を組み合わせることで,バッテリ駆動モバイルデバイスの省エネを図る。
RT3は、リソース制約のあるモバイルデバイスの第一段階の圧縮として効率的なBPを使用し、その後RT3は第一段階の最適化に基づいてシャーンケン検索空間をヒューリスティックに生成し、強化学習によりPPの多様な幅を持つ複数のパターン集合を検索し、DVFS(ハードウェア再構成)の利用可能な周波数レベルに対応する軽量なソフトウェア再構成をサポートする。
実行時には、RT3は45ms以内の軽量パターンセットを切り替えて、異なる周波数レベルのリアルタイム制約を保証できる。
さらに、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。
関連論文リスト
- LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文 参考訳(メタデータ) (2023-05-31T02:34:36Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - Accelerating Framework of Transformer by Hardware Design and Model
Compression Co-Optimization [3.5862583389869487]
巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。
本稿では,Transformerのデプロイメント課題に対処するアルゴリズムとハードウェアクローズドループアクセラレーションフレームワークを提案する。
本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-10-19T14:57:11Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Dynamic Transformer for Efficient Machine Translation on Embedded
Devices [0.9786690381850356]
利用可能なリソースに基づいてトランスフォーマーアーキテクチャを任意のタイミングでスケールする機械翻訳モデルを提案する。
提案手法である"Dynamic-HAT"では,HAT SuperTransformerをバックボーンとして,精度-レイテンシのトレードオフの異なるSubTransformerを探索する。
Dynamic-HATはJetson Nano上でテストされており、提案手法ではスーパートランスフォーマーから直接サンプリングされたサブトランスフォーマーをスイッチング時間1sで使用する。
論文 参考訳(メタデータ) (2021-07-17T07:36:29Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Lite Transformer with Long-Short Range Attention [31.946796118788285]
エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。
Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。
注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
論文 参考訳(メタデータ) (2020-04-24T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。