論文の概要: Lightweight Transformer Architectures for Edge Devices in Real-Time Applications
- arxiv url: http://arxiv.org/abs/2601.03290v1
- Date: Mon, 05 Jan 2026 01:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.034469
- Title: Lightweight Transformer Architectures for Edge Devices in Real-Time Applications
- Title(参考訳): エッジデバイス用軽量トランスアーキテクチャのリアルタイム応用
- Authors: Hema Hariharan Samson,
- Abstract要約: 本調査では,エッジデプロイメント用に設計された軽量トランスフォーマーアーキテクチャについて検討する。
我々は、MobileBERT、TinyBERT、DistilBERT、EfficientFormer、EdgeFormer、MobileViTなど、注目すべき軽量版を体系的にレビューした。
実験により, モデルサイズを4~10倍, 推論遅延を3~9倍削減し, モデル精度を75~96%向上できることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of transformer-based models on resource-constrained edge devices represents a critical challenge in enabling real-time artificial intelligence applications. This comprehensive survey examines lightweight transformer architectures specifically designed for edge deployment, analyzing recent advances in model compression, quantization, pruning, and knowledge distillation techniques. We systematically review prominent lightweight variants including MobileBERT, TinyBERT, DistilBERT, EfficientFormer, EdgeFormer, and MobileViT, providing detailed performance benchmarks on standard datasets such as GLUE, SQuAD, ImageNet-1K, and COCO. Our analysis encompasses current industry adoption patterns across major hardware platforms (NVIDIA Jetson, Qualcomm Snapdragon, Apple Neural Engine, ARM architectures), deployment frameworks (TensorFlow Lite, ONNX Runtime, PyTorch Mobile, CoreML), and optimization strategies. Experimental results demonstrate that modern lightweight transformers can achieve 75-96% of full-model accuracy while reducing model size by 4-10x and inference latency by 3-9x, enabling deployment on devices with as little as 2-5W power consumption. We identify sparse attention mechanisms, mixed-precision quantization (INT8/FP16), and hardware-aware neural architecture search as the most effective optimization strategies. Novel findings include memory-bandwidth bottleneck analysis revealing 15-40M parameter models achieve optimal hardware utilization (60-75% efficiency), quantization sweet spots for different model types, and comprehensive energy efficiency profiling across edge platforms. We establish real-time performance boundaries and provide a practical 6-step deployment pipeline achieving 8-12x size reduction with less than 2% accuracy degradation.
- Abstract(参考訳): リソース制約のあるエッジデバイスにトランスフォーマーベースのモデルを配置することは、リアルタイム人工知能アプリケーションを実現する上で重要な課題である。
この包括的調査では、エッジ配置用に特別に設計された軽量トランスフォーマーアーキテクチャを調査し、モデル圧縮、量子化、プルーニング、知識蒸留技術の最近の進歩を分析した。
我々は,MobileBERT,TinyBERT,DistilBERT,EfficientFormer,EdgeFormer,MobileViTなどの軽量版を体系的にレビューし,GLUE,SQuAD,ImageNet-1K,COCOといった標準データセットの詳細なパフォーマンスベンチマークを提供する。
私たちの分析では、主要なハードウェアプラットフォーム(NVIDIA Jetson、Qualcomm Snapdragon、Apple Neural Engine、ARMアーキテクチャ)、デプロイメントフレームワーク(TensorFlow Lite、ONNX Runtime、PyTorch Mobile、CoreML)、最適化戦略など、現在の業界採用パターンを網羅しています。
実験により, モデルサイズを4~10倍, 推論遅延を3~9倍に削減し, 最大2~5Wの電力消費の少ないデバイスに展開できることを確認した。
我々は、最も効果的な最適化手法として、スパースアテンション機構、混合精度量子化(INT8/FP16)、ハードウェア対応ニューラルアーキテクチャサーチを同定する。
新たな発見として、15~40Mのパラメータモデルが最適なハードウェア利用(60~75%の効率)を達成すること、異なるモデルタイプに対する量子化スイートスポット、エッジプラットフォーム間の包括的なエネルギー効率プロファイリングが明らかになった。
リアルタイムのパフォーマンス境界を確立し,2%未満の精度で8~12倍の縮小を実現した,実用的な6ステップのデプロイメントパイプラインを提供する。
関連論文リスト
- EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - Performance Trade-offs of Optimizing Small Language Models for E-Commerce [1.0312968200748118]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおける最先端のパフォーマンスを提供する。
本稿では,資源効率の代替として,より小型でオープンウェイトなモデルの実現可能性について検討する。
論文 参考訳(メタデータ) (2025-10-24T18:49:28Z) - Efficient FPGA-accelerated Convolutional Neural Networks for Cloud Detection on CubeSats [0.5420492913071214]
資源制約付きCubeSatミッションにおけるクラウド検出のためのFPGA加速畳み込みニューラルネットワーク(CNN)モデルの実装について述べる。
本研究では,ピクセルワイド(Pixel-NetとPatch-Net)と画像ワイド(U-NetとScene-Net)の両方のモデルを用いて,精度,レイテンシ,モデル複雑性のトレードオフをベンチマークする。
全てのモデルはFPGA後の高精度な統合を保ち、量子化とプルーニング後に最大精度がわずか0.6%低下した。
論文 参考訳(メタデータ) (2025-04-04T19:32:47Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。