論文の概要: Energy-Efficient Vision Transformer Inference for Edge-AI Deployment
- arxiv url: http://arxiv.org/abs/2511.23166v1
- Date: Fri, 28 Nov 2025 13:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.906643
- Title: Energy-Efficient Vision Transformer Inference for Edge-AI Deployment
- Title(参考訳): エッジAI展開のためのエネルギー効率の良い視覚変換器推論
- Authors: Nursultan Amanzhol, Jurn-Gyu Park,
- Abstract要約: エネルギー制約のあるデバイス上でビジョントランスフォーマー(ViT)を評価するための2段階パイプラインを提案する。
デバイスに依存しないステージは、スクリーニングにNetScoreメトリックを使用し、デバイス関連ステージは、サステナブル・正確度(SAM)モデルでランク付けする。
その結果、LeViT_Conv_192のようなハイブリッドモデルは、ViTベースラインと比較してTX2のエネルギーを最大53%削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing deployment of Vision Transformers (ViTs) on energy-constrained devices requires evaluation methods that go beyond accuracy alone. We present a two-stage pipeline for assessing ViT energy efficiency that combines device-agnostic model selection with device-related measurements. We benchmark 13 ViT models on ImageNet-1K and CIFAR-10, running inference on NVIDIA Jetson TX2 (edge device) and an NVIDIA RTX 3050 (mobile GPU). The device-agnostic stage uses the NetScore metric for screening; the device-related stage ranks models with the Sustainable Accuracy Metric (SAM). Results show that hybrid models such as LeViT_Conv_192 reduce energy by up to 53% on TX2 relative to a ViT baseline (e.g., SAM5=1.44 on TX2/CIFAR-10), while distilled models such as TinyViT-11M_Distilled excel on the mobile GPU (e.g., SAM5=1.72 on RTX 3050/CIFAR-10 and SAM5=0.76 on RTX 3050/ImageNet-1K).
- Abstract(参考訳): エネルギー制約のあるデバイスへのビジョントランスフォーマー(ViT)の展開は、精度のみを超越した評価方法を必要とする。
本稿では、デバイス非依存モデル選択とデバイス関連測定を組み合わせた、ViTエネルギー効率を評価するための2段階パイプラインを提案する。
NVIDIA Jetson TX2(エッジデバイス)とNVIDIA RTX 3050(モバイルGPU)で,13のViTモデルをImageNet-1KとCIFAR-10でベンチマークした。
デバイスに依存しないステージは、スクリーニングにNetScoreメトリックを使用する。
その結果、LeViT_Conv_192のようなハイブリッドモデルは、ViTベースライン(TX2/CIFAR-10ではSAM5=1.44、RTX3050/CIFAR-10ではSAM5=1.72、RTX3050/ImageNet-1KではSAM5=0.76、RTX3050/CIFAR-10ではSAM5=1.72、RTX3050/ImageNet-1KではSAM5=0.76)と比較してエネルギーを最大53%削減することがわかった。
関連論文リスト
- CascadedViT: Cascaded Chunk-FeedForward and Cascaded Group Attention Vision Transformer [1.9336815376402718]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
本稿では,軽量かつ計算効率の良い視覚変換器アーキテクチャであるemph Cascaded-ViT(CViT)を提案する。
CCFFNは精度を犠牲にすることなくパラメータとFLOP効率を改善する。
論文 参考訳(メタデータ) (2025-11-18T03:51:15Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。