論文の概要: ViT-1.58b: Mobile Vision Transformers in the 1-bit Era
- arxiv url: http://arxiv.org/abs/2406.18051v1
- Date: Wed, 26 Jun 2024 04:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:38:19.394081
- Title: ViT-1.58b: Mobile Vision Transformers in the 1-bit Era
- Title(参考訳): ViT-1.58b: 1ビット時代のモバイルビジョン変換器
- Authors: Zhengqing Yuan, Rong Zhou, Hongyi Wang, Lifang He, Yanfang Ye, Lichao Sun,
- Abstract要約: 本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。
CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
- 参考スコア(独自算出の注目度): 27.74281483852495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable performance in various image classification tasks by leveraging the attention mechanism to process image patches as tokens. However, the high computational and memory demands of ViTs pose significant challenges for deployment in resource-constrained environments. This paper introduces ViT-1.58b, a novel 1.58-bit quantized ViT model designed to drastically reduce memory and computational overhead while preserving competitive performance. ViT-1.58b employs ternary quantization, which refines the balance between efficiency and accuracy by constraining weights to {-1, 0, 1} and quantizing activations to 8-bit precision. Our approach ensures efficient scaling in terms of both memory and computation. Experiments on CIFAR-10 and ImageNet-1k demonstrate that ViT-1.58b maintains comparable accuracy to full-precision Vit, with significant reductions in memory usage and computational costs. This paper highlights the potential of extreme quantization techniques in developing sustainable AI solutions and contributes to the broader discourse on efficient model deployment in practical applications. Our code and weights are available at https://github.com/DLYuanGod/ViT-1.58b.
- Abstract(参考訳): 視覚変換器(ViT)は、注目機構を利用して画像パッチをトークンとして処理することにより、様々な画像分類タスクにおいて顕著な性能を実現している。
しかし、ViTの高計算およびメモリ要求は、リソース制約された環境への展開に重大な課題をもたらす。
本稿では、競合性能を保ちながら、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルであるViT-1.58bを紹介する。
ViT-1.58bは3次量子化を採用し、重みを {-1, 0, 1} に制限し、アクティベーションを8ビット精度に定量化することで効率と精度のバランスを改善している。
提案手法は,メモリと計算の両面で効率的なスケーリングを実現する。
CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持しており、メモリ使用量と計算コストは大幅に削減されている。
本稿では、持続可能なAIソリューション開発における極端量子化技術の可能性を強調し、実用的なアプリケーションにおける効率的なモデル展開に関する幅広い議論に貢献する。
コードとウェイトはhttps://github.com/DLYuanGod/ViT-1.58bで公開されています。
関連論文リスト
- DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity
Prediction [16.578899848650675]
ViT(Vision Transformer)は、様々なコンピュータビジョンアプリケーションにおいて、競合する精度を達成したが、その計算コストは、リソース制限されたモバイルデバイスへのデプロイを妨げる。
本稿では, CP-ViTモデルにおいて, 精度損失を最小化しつつ, 計算冗長性を抑えるために, 動的かつ段階的に間隔を予測し, CP-ViTと呼ばれるカスケード刈り込みフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T08:15:14Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。