論文の概要: Accelerating Vision Transformers on Brain Processing Unit
- arxiv url: http://arxiv.org/abs/2602.06300v1
- Date: Fri, 06 Feb 2026 01:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.183776
- Title: Accelerating Vision Transformers on Brain Processing Unit
- Title(参考訳): 脳処理ユニットにおける視覚変換器の高速化
- Authors: Jinchi Tang, Yan Guo,
- Abstract要約: ビジョントランスフォーマー(ViT)モデルは優れた性能を示し、コンピュータビジョンタスクにおいてますます重要な役割を担っている。
本稿では、線形層と層正規化演算を慎重に設計した畳み込み演算子に置き換えることで、ビジョン変換器を再構成する新しい手法を提案する。
これは、BPU分類データセットを完全に活用したビジョントランスフォーマーの最初の成功例であり、私たちのアプローチの有効性を示しています。
- 参考スコア(独自算出の注目度): 2.541819265668514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of deep learning technologies, specialized neural processing hardware such as Brain Processing Units (BPUs) have emerged as dedicated platforms for CNN acceleration, offering optimized INT8 computation capabilities for convolutional operations. Meanwhile, Vision Transformer (ViT) models, such as the Data-efficient Image Transformer (DeiT), have demonstrated superior performance and play increasingly crucial roles in computer vision tasks. However, due to the architectural mismatch between CNN-optimized hardware and Vision Transformer computation characteristics--namely, that linear layers in Transformers operate on three-dimensional data while BPU acceleration is designed for four-dimensional convolution operations-it is difficult or even impossible to leverage BPU's advantages when deploying Vision Transformers. To address this challenge, we propose a novel approach that restructures the Vision Transformer by replacing linear layers and layer normalization operations with carefully designed convolutional operators. This enables DeiT to fully utilize the acceleration capabilities of BPUs, while allowing the original weight parameters to be inherited by the restructured models without retraining or fine-tuning. To the best of our knowledge, this is the first successful deployment of Vision Transformers that fully leverages BPU classification datasets demonstrate the effectiveness of our approach. Specifically, the quantized DeiT-Base model achieves 80.4% accuracy on ImageNet, compared to the original 81.8%, while obtaining up to a 3.8* inference speedup. Our finetuned DeiT model on the flower classification dataset also achieves excellent performance, with only a 0.5% accuracy drop for the DeiT-Base model, further demonstrating the effectiveness of our method.
- Abstract(参考訳): ディープラーニング技術の進歩により、ブレインプロセッシングユニット(BPU)のような特殊なニューラル処理ハードウェアがCNNアクセラレーション専用のプラットフォームとして登場し、畳み込み操作に最適化されたINT8計算機能を提供している。
一方、データ効率のよい画像変換器(DeiT)のようなビジョン変換器(ViT)モデルは、優れた性能を示し、コンピュータビジョンタスクにおいてますます重要な役割を担っている。
しかし、CNN最適化ハードウェアとVision Transformer計算特性のアーキテクチャミスマッチにより、Transformerの線形層は3次元データで動作し、BPUアクセラレーションは4次元の畳み込み操作のために設計されている。
この課題に対処するために、線形層と層正規化操作を慎重に設計した畳み込み演算子に置き換えることでビジョン変換器を再構成する新しい手法を提案する。
これにより、DeiTはBPUの加速能力を完全に活用でき、元の重みパラメータは再トレーニングや微調整なしに再構成されたモデルによって継承できる。
私たちの知る限りでは、BPU分類データセットを完全に活用したビジョントランスフォーマーのデプロイに成功した最初の例です。
具体的には、量子化されたDeiT-Baseモデルは、元の81.8%と比較して、ImageNet上で80.4%の精度を達成し、最大3.8*の推論速度を得る。
DeiT-Baseモデルでは0.5%の精度低下しか得られず,花分類データセット上での微調整DiTモデルも優れた性能を実現し,本手法の有効性を実証した。
関連論文リスト
- ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures [18.355570259898]
Atleusと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
Atleusには、トランスフォーマーモデルを加速するために特別に最適化された異種コンピューティングリソースが組み込まれている。
Atleusは, 性能およびエネルギー効率の点で, 既存の最先端技術よりも56倍, 64.5倍高い性能を示した。
論文 参考訳(メタデータ) (2025-01-16T15:11:33Z) - TOAST: Transformer Optimization using Adaptive and Simple Transformations [40.311292704886235]
ToASTは,全トランスバータブロックを軽量なクローズドフォームマッピングで近似する冗長性を利用するフレームワークである。
その結果,変圧器の深さの大部分は自明な関数に置き換えられ,効率的な基礎モデルに対する新たな視点が開かれた。
論文 参考訳(メタデータ) (2024-10-07T11:35:24Z) - Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。
以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-08T13:54:36Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。