論文の概要: Improving the Efficiency of Transformers for Resource-Constrained
Devices
- arxiv url: http://arxiv.org/abs/2106.16006v1
- Date: Wed, 30 Jun 2021 12:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 14:40:10.913896
- Title: Improving the Efficiency of Transformers for Resource-Constrained
Devices
- Title(参考訳): 資源制約型デバイス用変圧器の効率向上
- Authors: Hamid Tabani, Ajay Balasubramaniam, Shabbir Marzban, Elahe Arani,
Bahram Zonooz
- Abstract要約: いくつかのデバイス上での最先端の視覚変換器の性能解析を行う。
モデルパラメータを表すために64個のクラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減できることを示す。
- 参考スコア(独自算出の注目度): 1.3019517863608956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers provide promising accuracy and have become popular and used in
various domains such as natural language processing and computer vision.
However, due to their massive number of model parameters, memory and
computation requirements, they are not suitable for resource-constrained
low-power devices. Even with high-performance and specialized devices, the
memory bandwidth can become a performance-limiting bottleneck. In this paper,
we present a performance analysis of state-of-the-art vision transformers on
several devices. We propose to reduce the overall memory footprint and memory
transfers by clustering the model parameters. We show that by using only 64
clusters to represent model parameters, it is possible to reduce the data
transfer from the main memory by more than 4x, achieve up to 22% speedup and
39% energy savings on mobile devices with less than 0.1% accuracy loss.
- Abstract(参考訳): トランスフォーマーは有望な精度を提供し、自然言語処理やコンピュータビジョンといった様々な領域で広く使われています。
しかし、膨大な数のモデルパラメータ、メモリおよび計算要求のため、リソース制約された低消費電力デバイスには適さない。
高性能で特殊なデバイスであっても、メモリ帯域幅はパフォーマンス制限ボトルネックとなる。
本稿では,複数のデバイスにおける最先端の視覚トランスフォーマの性能解析を行う。
モデルパラメータをクラスタリングすることにより、メモリフットプリントとメモリ転送全体の削減を提案する。
モデルパラメータを表現するために64クラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減し、最大22%の高速化と39%の省エネを実現し、精度の0.1%未満のモバイルデバイスで処理できることを示した。
関連論文リスト
- PQV-Mobile: A Combined Pruning and Quantization Toolkit to Optimize Vision Transformers for Mobile Applications [0.0]
本稿では,PQV-Mobile という,モバイルアプリケーションのための視覚変換器の最適化を目的とした,プルーニングと量子化を組み合わせたツールを提案する。
このツールは、マグニチュードの重要性、テイラーの重要性、ヘッセンの重要性に基づいて、異なるタイプの構造化プルーニングをサポートすることができる。
我々は,Facebook Data Efficient Image Transformer (DeiT)モデルを用いて,異なる量のプルーニングとInt8量子化のための重要な遅延-メモリ-精度トレードオフを示す。
論文 参考訳(メタデータ) (2024-08-15T22:10:10Z) - SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design [5.962184741057505]
本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。
より大きなストライドのパッチフィクスを使用するとメモリアクセスコストが削減されるだけでなく、競争性能も向上することがわかった。
SHViTは、最先端の速度精度トレードオフを得る単一ヘッドビジョン変換器である。
論文 参考訳(メタデータ) (2024-01-29T09:12:23Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Folding Attention: Memory and Power Optimization for On-Device
Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。
ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。
本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文 参考訳(メタデータ) (2023-09-14T19:01:08Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memory-efficient Speech Recognition on Smart Devices [15.015948023187809]
リカレントトランスデューサモデルは、スマートデバイス上での音声認識のための有望なソリューションとして登場した。
これらのモデルは、デバイスのバッテリー寿命に悪影響を及ぼす入力時間ステップ毎のオフチップメモリからパラメータにアクセスし、低消費電力デバイスでのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
論文 参考訳(メタデータ) (2021-02-23T07:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。