Fugu-MT 論文翻訳(概要): Accelerating Framework of Transformer by Hardware Design and Model Compression Co-Optimization

論文の概要: Accelerating Framework of Transformer by Hardware Design and Model Compression Co-Optimization

arxiv url: http://arxiv.org/abs/2110.10030v1
Date: Tue, 19 Oct 2021 14:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 14:42:51.256275
Title: Accelerating Framework of Transformer by Hardware Design and Model Compression Co-Optimization
Title（参考訳）: ハードウェア設計とモデル圧縮共最適化による変圧器の高速化
Authors: Panjie Qi, Edwin Hsing-Mean Sha, Qingfeng Zhuge, Hongwu Peng, Shaoyi Huang, Zhenglun Kong, Yuhong Song, and Bingbing Li
Abstract要約: 巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。本稿では,Transformerのデプロイメント課題に対処するアルゴリズムとハードウェアクローズドループアクセラレーションフレームワークを提案する。本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現している。
参考スコア（独自算出の注目度）: 3.5862583389869487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art Transformer-based models, with gigantic parameters, are difficult to be accommodated on resource constrained embedded devices. Moreover, with the development of technology, more and more embedded devices are available to run a Transformer model. For a Transformer model with different constraints (tight or loose), it can be deployed onto devices with different computing power. However, in previous work, designers did not choose the best device among multiple devices. Instead, they just used an existing device to deploy model, which was not necessarily the best fit and may lead to underutilization of resources. To address the deployment challenge of Transformer and the problem to select the best device, we propose an algorithm & hardware closed-loop acceleration framework. Given a dataset, a model, latency constraint LC and accuracy constraint AC, our framework can provide a best device satisfying both constraints. In order to generate a compressed model with high sparsity ratio, we propose a novel pruning technique, hierarchical pruning (HP). We optimize the sparse matrix storage format for HP matrix to further reduce memory usage for FPGA implementation. We design a accelerator that takes advantage of HP to solve the problem of concurrent random access. Experiments on Transformer and TinyBert model show that our framework can find different devices for various LC and AC, covering from low-end devices to high-end devices. Our HP can achieve higher sparsity ratio and is more flexible than other sparsity pattern. Our framework can achieve 37x, 1.9x, 1.7x speedup compared to CPU, GPU and FPGA, respectively.
Abstract（参考訳）: 巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。さらに、技術の発展により、トランスフォーマーモデルを実行するための組み込みデバイスがますます増えています。異なる制約(密接または緩い)を持つトランスフォーマーモデルでは、異なる計算能力を持つデバイスにデプロイすることができる。しかし、以前の研究では、デザイナーは複数のデバイスの中で最高のデバイスを選ばなかった。代わりに、既存のデバイスを使ってモデルをデプロイしたが、それは必ずしも最適ではなく、リソースの未使用につながる可能性がある。トランスフォーマーの展開課題と最善のデバイスの選択問題に対処するため,アルゴリズムとハードウェアのクローズドループ加速フレームワークを提案する。データセット、モデル、レイテンシ制約LC、精度制約ACを前提として、我々のフレームワークは両方の制約を満たす最高のデバイスを提供することができる。高スパース率の圧縮モデルを生成するために,新しい刈り込み手法である階層刈り込み (hp) を提案する。 FPGA実装におけるメモリ使用量を削減するため,HP行列のスパース行列ストレージフォーマットを最適化する。我々は、並列ランダムアクセスの問題を解決するためにHPを利用するアクセラレータを設計する。 Transformer と TinyBert モデルによる実験により,私たちのフレームワークは,ローエンドデバイスからハイエンドデバイスまで,さまざまな LC と AC の異なるデバイスを見つけることができることがわかった。私たちのhpは高いスパーシティ比を達成でき、他のスパーシティパターンよりも柔軟です。本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現する。

関連論文リスト

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-13T07:46:46Z)
MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
CoFormer: Collaborating with Heterogeneous Edge Devices for Scalable Transformer Inference [34.693462786320545]
CoFormerは一般的なトランスモデルの協調推論システムである。 CoFormerはエッジデバイス上で16億のパラメータを持つGPT2-XLの効率的な推論を可能にし、メモリ要求を76.3%削減した。
論文参考訳（メタデータ） (2025-08-28T02:50:12Z)
Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:10Z)
SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.91607650966469]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。 Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文参考訳（メタデータ） (2025-06-11T04:55:54Z)
Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文参考訳（メタデータ） (2024-07-16T12:36:10Z)
ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for Transformer Layers [38.310917646404576]
常時オンのデバイスのメモリ制約は、音声処理モデルをデプロイする際の大きな懸念点の1つである。本稿では,Residual Transformer という手法を提案する。トランスフォーマー層内の各重み行列は,1) 隣接層との共有フルランク成分と,2) 独自の低ランク成分とを含む。 10k時間音声認識および音声翻訳タスクの実験により,トランスフォーマーエンコーダのサイズを3倍に小さくすることができ,性能の低下が極めて少ないことがわかった。
論文参考訳（メタデータ） (2023-10-03T23:31:48Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文参考訳（メタデータ） (2023-02-09T18:59:54Z)
Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。 1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文参考訳（メタデータ） (2022-03-24T02:26:04Z)
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文参考訳（メタデータ） (2022-03-04T02:10:43Z)
EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq Generation [104.44478403427881]
EdgeFormerは、オンデバイスセq2seq生成のためのエンコーダデコーダアーキテクチャのパラメータ効率の変換器である。本研究は,機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクの実験を行う。
論文参考訳（メタデータ） (2022-02-16T10:10:00Z)
Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。 Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文参考訳（メタデータ） (2021-10-21T08:11:12Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。