論文の概要: MicroViTv2: Beyond the FLOPS for Edge Energy-Friendly Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.10148v1
- Date: Mon, 11 May 2026 07:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.620412
- Title: MicroViTv2: Beyond the FLOPS for Edge Energy-Friendly Vision Transformers
- Title(参考訳): MicroViTv2:エッジエネルギーフレンドリーなビジョントランス用FLOPSを超える
- Authors: Novendra Setyawan, Chi-Chia Sun, Mao-Hsiu Hsu, Wen-Kai Kuo, Jun-Wei Hsieh,
- Abstract要約: Vision Transformer (ViT) は、視覚タスク全体にわたって顕著な精度を達成するが、エッジデプロイメントには計算コストがかかる。
本稿では,実デバイス効率に最適化された軽量ビジョントランスであるMicroViTv2を提案する。
- 参考スコア(独自算出の注目度): 6.427162946484909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Vision Transformer (ViT) achieves remarkable accuracy across visual tasks but remains computationally expensive for edge deployment. This paper presents MicroViTv2, a lightweight Vision Transformer optimized for real-device efficiency. Built upon the original MicroViT, the proposed model is designed based on reparameterized design, specifically Reparameterized Patch Embedding (RepEmbed) and Reparameterized Depth-Wise convolution mixer (RepDW) for faster inference, and introduces the Single Depth-Wise Transposed Attention (SDTA) to capture long-range dependencies with minimal redundancy. Despite slightly higher FLOPs, MicroViTv2 improves accuracy up to 0.5% compared to its predecessor and surpassing MobileViTv2, EdgeNeXt, and EfficientViT while maintaining fast inference and high energy efficiency on Jetson AGX Orin. Experiments on ImageNet-1K and COCO demonstrate that hardware-aware design and structural re-parameterization are key to achieving high accuracy and low energy consumption, validating the need to evaluate efficiency beyond FLOPs. Code is available at https://github.com/novendrastywn/MicroViT.
- Abstract(参考訳): Vision Transformer (ViT) は、視覚タスク全体にわたって顕著な精度を達成するが、エッジデプロイメントには計算コストがかかる。
本稿では,実デバイス効率に最適化された軽量ビジョントランスであるMicroViTv2を提案する。
元のMicroViTをベースとして、提案モデルは再パラメータ化設計に基づいて設計されており、特にReparameterized Patch Embedding (RepEmbed) とReparameterized Depth-Wise Convolution Mixer (RepDW) を高速な推論のために設計し、最小冗長性で長距離依存関係をキャプチャするためにSingle Depth-Wise Transposed Attention (SDTA)を導入している。
FLOPはわずかに高いが、MicroViTv2は前機種と比べて0.5%の精度を向上し、高速な推論とJetson AGX Orinの高エネルギー効率を維持しながらMobileViTv2、EdgeNeXt、EfficientViTを上回っている。
ImageNet-1KとCOCOの実験では、ハードウェアを意識した設計と構造的再パラメータ化が、高い精度と低エネルギー消費を達成するための鍵であり、FLOPを超えて効率を評価する必要性を検証している。
コードはhttps://github.com/novendrastywn/MicroViT.comで入手できる。
関連論文リスト
- CascadedViT: Cascaded Chunk-FeedForward and Cascaded Group Attention Vision Transformer [1.9336815376402718]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
本稿では,軽量かつ計算効率の良い視覚変換器アーキテクチャであるemph Cascaded-ViT(CViT)を提案する。
CCFFNは精度を犠牲にすることなくパラメータとFLOP効率を改善する。
論文 参考訳(メタデータ) (2025-11-18T03:51:15Z) - MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions [1.0411839100853515]
MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。
ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
論文 参考訳(メタデータ) (2025-07-29T12:46:36Z) - MicroViT: A Vision Transformer with Low Complexity Self Attention for Edge Device [3.617580194719686]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて最先端のパフォーマンスを実証しているが、その高い計算要求により、限られたリソースを持つエッジデバイスでは実用的ではない。
本稿では,エッジデバイスに最適化された軽量ビジョントランスフォーマーアーキテクチャであるMicroViTを提案する。
論文 参考訳(メタデータ) (2025-02-09T08:04:39Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [96.00848293994463]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。