Fugu-MT 論文翻訳(概要): Dancing along Battery: Enabling Transformer with Run-time Reconfigurability on Mobile Devices

論文の概要: Dancing along Battery: Enabling Transformer with Run-time Reconfigurability on Mobile Devices

arxiv url: http://arxiv.org/abs/2102.06336v1
Date: Fri, 12 Feb 2021 03:07:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-15 13:07:13.070860
Title: Dancing along Battery: Enabling Transformer with Run-time Reconfigurability on Mobile Devices
Title（参考訳）: バッテリーと共に踊る - モバイルデバイス上での実行時間再構成可能なトランスフォーマーの実現
Authors: Yuhong Song, Weiwen Jiang, Bingbing Li, Panjie Qi, Qingfeng Zhuge, Edwin Hsing-Mean Sha, Sakyasingha Dasgupta, Yiyu Shi, Caiwen Ding
Abstract要約: この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。これにより、Transformerベースの大規模自然言語処理(NLP)モデルは、リソース制約のあるモバイルデバイス上で効率的に実行される。その結果、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。
参考スコア（独自算出の注目度）: 14.474002760561325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A pruning-based AutoML framework for run-time reconfigurability, namely RT3, is proposed in this work. This enables Transformer-based large Natural Language Processing (NLP) models to be efficiently executed on resource-constrained mobile devices and reconfigured (i.e., switching models for dynamic hardware conditions) at run-time. Such reconfigurability is the key to save energy for battery-powered mobile devices, which widely use dynamic voltage and frequency scaling (DVFS) technique for hardware reconfiguration to prolong battery life. In this work, we creatively explore a hybrid block-structured pruning (BP) and pattern pruning (PP) for Transformer-based models and first attempt to combine hardware and software reconfiguration to maximally save energy for battery-powered mobile devices. Specifically, RT3 integrates two-level optimizations: First, it utilizes an efficient BP as the first-step compression for resource-constrained mobile devices; then, RT3 heuristically generates a shrunken search space based on the first level optimization and searches multiple pattern sets with diverse sparsity for PP via reinforcement learning to support lightweight software reconfiguration, which corresponds to available frequency levels of DVFS (i.e., hardware reconfiguration). At run-time, RT3 can switch the lightweight pattern sets within 45ms to guarantee the required real-time constraint at different frequency levels. Results further show that RT3 can prolong battery life over 4x improvement with less than 1% accuracy loss for Transformer and 1.5% score decrease for DistilBERT.
Abstract（参考訳）: この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。これにより、Transformerベースの大規模自然言語処理(NLP)モデルをリソース制約のあるモバイルデバイス上で効率的に実行し、実行時に再構成(動的ハードウェア条件のモデルの変更)を行うことができる。このような再構成性は、バッテリー駆動のモバイルデバイスの省エネの鍵であり、ハードウェア再構成のために動的電圧および周波数スケーリング(dvfs)技術が広く使われている。本研究では,トランスフォーマーモデルのためのブロック構造プルーニング(bp)とパターンプルーニング(pp)のハイブリッドを創造的に検討し,まずハードウェアとソフトウェアの再構成を組み合わせることで,バッテリ駆動モバイルデバイスの省エネを図る。 RT3は、リソース制約のあるモバイルデバイスの第一段階の圧縮として効率的なBPを使用し、その後RT3は第一段階の最適化に基づいてシャーンケン検索空間をヒューリスティックに生成し、強化学習によりPPの多様な幅を持つ複数のパターン集合を検索し、DVFS(ハードウェア再構成)の利用可能な周波数レベルに対応する軽量なソフトウェア再構成をサポートする。実行時には、RT3は45ms以内の軽量パターンセットを切り替えて、異なる周波数レベルのリアルタイム制約を保証できる。さらに、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。

関連論文リスト

Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:10Z)
An ultra-low-power CGRA for accelerating Transformers at the edge [1.52292571922932]
本稿では,変圧器モデルにおける汎用行列乗算(GEMM)演算を高速化する,超低消費電力粗粒再構成可能アレイ(CGRA)アーキテクチャを提案する。提案アーキテクチャでは,効率的な並列計算のための処理要素の4 x 4配列と,最適化されたLOAD/STORE操作のための専用の4 x 2メモリ操作ブロック(MOB)を統合している。スイッチレスメッシュトーラス相互接続ネットワークは、PEとMOB間の直接通信を可能にすることにより、電力と遅延を最小化する。
論文参考訳（メタデータ） (2025-07-17T08:43:14Z)
POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。 ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文参考訳（メタデータ） (2024-07-02T08:58:19Z)
Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文参考訳（メタデータ） (2024-04-17T02:04:10Z)
M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文参考訳（メタデータ） (2023-05-31T02:34:36Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Federated Learning for Energy-limited Wireless Networks: A Partial Model Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックであるまず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文参考訳（メタデータ） (2022-04-20T19:09:52Z)
Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。 1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文参考訳（メタデータ） (2022-03-24T02:26:04Z)
Accelerating Framework of Transformer by Hardware Design and Model Compression Co-Optimization [3.5862583389869487]
巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。本稿では,Transformerのデプロイメント課題に対処するアルゴリズムとハードウェアクローズドループアクセラレーションフレームワークを提案する。本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現している。
論文参考訳（メタデータ） (2021-10-19T14:57:11Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)
Dynamic Transformer for Efficient Machine Translation on Embedded Devices [0.9786690381850356]
利用可能なリソースに基づいてトランスフォーマーアーキテクチャを任意のタイミングでスケールする機械翻訳モデルを提案する。提案手法である"Dynamic-HAT"では,HAT SuperTransformerをバックボーンとして,精度-レイテンシのトレードオフの異なるSubTransformerを探索する。 Dynamic-HATはJetson Nano上でテストされており、提案手法ではスーパートランスフォーマーから直接サンプリングされたサブトランスフォーマーをスイッチング時間1sで使用する。
論文参考訳（メタデータ） (2021-07-17T07:36:29Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Lite Transformer with Long-Short Range Attention [31.946796118788285]
エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。 Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
論文参考訳（メタデータ） (2020-04-24T17:52:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。