論文の概要: FTerViT: Fully Ternary Vision Transformer
- arxiv url: http://arxiv.org/abs/2605.21171v1
- Date: Wed, 20 May 2026 13:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.699069
- Title: FTerViT: Fully Ternary Vision Transformer
- Title(参考訳): FTerViT:フル第三世代ビジョントランス
- Authors: Szymon Ruciński, Pietro Bonazzi, Engin Türetken, Simon Narduzzi, Michele Magno, Nadim Maamari,
- Abstract要約: 我々は、アンカーウェイト行列と正規化パラメータを三元化(FTerViT)する完全三元化ビジョン変換器を導入する。
FTerViTは、知識蒸留を用いて訓練され、その後、軽量な量子化対応回復フェーズが続く。
3次 W2A8 DeiT-III-S at 384$times$384 resolution は 82.43% ImageNet-1K top-1 at 6.09,MB である。
- 参考スコア(独自算出の注目度): 6.993507427960346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ternary Vision Transformers offer substantial model compression, however state-of-the-art methods only ternarize the encoder layers, leaving patch embeddings, LayerNorm parameters, and classifier heads in full precision. In compact models targeting resource-constrained processors, such as microcontrollers, these remaining full-precision components determine the total memory footprint, severely limiting deployment efficiency and on-device feasibility. In this work, we introduce a fully ternarized Vision Transformer in which \emph{all} weight matrices and normalization parameters are ternarized (FTerViT). To this end, we introduce two novel operators : TernaryBitConv2d with per-channel scaling for patch embedding and TernaryLayerNorm. FTerViT is trained using knowledge distillation, followed by a lightweight quantization-aware recovery phase. Our ternary W2A8 DeiT-III-S at 384$\times$384 resolution achieves 82.43\% ImageNet-1K top-1 at 6.09\,MB (${\sim}$15$\times$ compression, $-$2.42\,pp vs.\ FP32), outperforming prior ternary ViTs methods up to 8 pp. Finally, we demonstrate the first implementation of ternary vision transformers on a dual cores XTensa LX7 microcontroller inside the ESP32-S3 system-on-chip. By deploying FTerViT-Small (based on DeiT-III-Small at 224$\times$224 resolution, 5.81\,MB), we achieve 79.64\% ImageNet-1K top-1 accuracy.
- Abstract(参考訳): ターナリービジョントランスフォーマーは、実質的なモデル圧縮を提供するが、最先端の手法はエンコーダ層を三分し、パッチ埋め込み、LayerNormパラメータ、および分類器ヘッドを完全精度で残すのみである。
マイクロコントローラなどのリソース制約のあるプロセッサをターゲットにしたコンパクトモデルでは、残りの完全精度のコンポーネントがメモリフットプリントの総量を決定し、配置効率とデバイス上の実現可能性を大幅に制限する。
本研究では, 重み行列と正規化パラメータを三元化(FTerViT)した完全三元化ビジョン変換器を提案する。
この目的のために,TernaryBitConv2dとTernaryLayerNormの2つの新しい演算子を紹介した。
FTerViTは、知識蒸留を用いて訓練され、その後、軽量な量子化対応回復フェーズが続く。
W2A8 DeiT-III-S at 384$\times$384 resolution achieves 82.43\% ImageNet-1K top-1 at 6.09\,MB (${\sim}$15$\times$ compression, $-$2.42\,pp vs。
FP32), 前3次ViTs法では最大8pp。
最後に、ESP32-S3システムオンチップ内のデュアルコアXTensa LX7マイクロコントローラ上での3次視覚変換器の実装について紹介する。
FTerViT-Small(DeiT-III-Smallを224$\times$224、5.81\,MB)をデプロイすることで、79.64\%のImageNet-1Kトップ1の精度を実現する。
関連論文リスト
- Compress image to patches for Vision Transformer [0.0]
本稿では、CI2P-ViTというCNNとVision Transformerに基づくハイブリッドモデルを提案する。
このモデルにはCI2Pと呼ばれるモジュールが組み込まれており、CompressAIエンコーダを使って画像を圧縮し、一連の畳み込みを通じてパッチのシーケンスを生成する。
アニマルズ-10データセットの地上訓練で、CI2P-ViTは92.37%の精度を達成し、ViT-B/16ベースラインよりも3.3%改善した。
論文 参考訳(メタデータ) (2025-02-14T12:40:37Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。