論文の概要: A Comparative Study of CNN Optimization Methods for Edge AI: Exploring the Role of Early Exits
- arxiv url: http://arxiv.org/abs/2604.14789v1
- Date: Thu, 16 Apr 2026 08:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.814259
- Title: A Comparative Study of CNN Optimization Methods for Edge AI: Exploring the Role of Early Exits
- Title(参考訳): エッジAIにおけるCNN最適化手法の比較研究 : 早期流出の役割を探る
- Authors: Nekane Fernandez, Ivan Valdes, Steven Van Vaerenbergh, Idoia de la Iglesia, Julen Arratibel,
- Abstract要約: 本稿では,静的圧縮と動的早期退避機構の統一的な展開指向比較について述べる。
以上の結果から,静的および動的手法によって,エッジデプロイメントのトレードオフが根本的に異なることが明らかとなった。
それらの組み合わせは非常に効果的で、推論遅延とメモリ使用量を最小限の精度で削減できる。
- 参考スコア(独自算出の注目度): 0.08209843760716957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep neural networks on edge devices requires balancing accuracy, latency, and resource constraints under realistic execution conditions. To fit models within these constraints, two broad strategies have emerged: static compression techniques such as pruning and quantization, which permanently reduce model size, and dynamic approaches such as early-exit mechanisms, which adapt computational cost at runtime. While both families are widely studied in isolation, they are rarely compared under identical conditions on physical hardware. This paper presents a unified deployment-oriented comparison of static compression and dynamic early-exit mechanisms, evaluated on real edge devices using ONNX based inference pipelines. Our results show that static and dynamic techniques offer fundamentally different trade-offs for edge deployment. While pruning and quantization deliver consistent memory footprint reduction, early-exit mechanisms enable input-adaptive computation savings that static methods cannot match. Their combination proves highly effective, simultaneously reducing inference latency and memory usage with minimal accuracy loss, expanding what is achievable at the edge.
- Abstract(参考訳): エッジデバイスにディープニューラルネットワークをデプロイするには、現実的な実行条件下での精度、レイテンシ、リソース制約のバランスが必要である。
これらの制約内にモデルを適合させるため、プルーニングや量子化といった静的圧縮技術と、実行時に計算コストに適応する早期終了機構のような動的アプローチの2つの幅広い戦略が登場した。
どちらの家族も独立して研究されているが、物理的ハードウェア上で同じ条件下で比較されることは稀である。
本稿では,ONNXに基づく推論パイプラインを用いて,実エッジデバイス上で評価された静的圧縮と動的早期退避機構の統一的な展開指向比較について述べる。
以上の結果から,静的および動的手法によって,エッジデプロイメントのトレードオフが根本的に異なることが明らかとなった。
プルーニングと量子化は、一貫したメモリフットプリントの削減をもたらすが、初期出力機構は、静的メソッドが一致しない入力適応型計算の節約を可能にする。
それらの組み合わせは非常に効果的であることが証明され、同時に推論レイテンシとメモリ使用量を最小限の精度で削減し、エッジで達成可能なものを拡張する。
関連論文リスト
- Low-Rank Compression of Pretrained Models via Randomized Subspace Iteration [2.1016374925364616]
特異値分解(SVD)に基づく低ランク分解は、モデル還元の原理的なアプローチを提供する。
ランダム化SVD (RSVD) のようなランダム化された代替手法は効率を向上するが、特異値スペクトルがゆっくりと崩壊すると近似品質が低下する。
より効果的な代替手段としてランダム化部分空間(RSI)を提案する。
論文 参考訳(メタデータ) (2026-04-03T02:47:03Z) - CAMP-HiVe: Cyclic Pair Merging based Efficient DNN Pruning with Hessian-Vector Approximation for Resource-Constrained Systems [3.343542849202802]
CAMP-HiVeは,Hessian Vector近似を用いたサイクリックペアマージベースプルーニングである。
実験により,提案手法が計算要求の大幅な削減を実現することを示す。
既存の最先端のニューラルプルーニング法よりも優れています。
論文 参考訳(メタデータ) (2025-11-09T07:58:36Z) - In-memory Training on Analog Devices with Limited Conductance States via Multi-tile Residual Learning [59.091567092071564]
インメモリトレーニングは通常、デジタルベースラインに合わせて少なくとも8ビットのコンダクタンス状態を必要とする。
ReRAMのような多くの有望な中間デバイスは、製造制約のため、約4ビットの解像度しか提供しない。
本稿では,残差を補うために複数のクロスバータイルを逐次学習する語彙学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-02T19:44:25Z) - Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression [0.0]
プルーニングと量子化は、モデルのサイズを減らし、処理速度を向上させるために広く使われている圧縮技術である。
本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,高い圧縮効率を実現する2つの手法を提案する。
実験により,提案手法は精度の低下を最小限に抑え,効率的なモデル圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-09-04T14:17:28Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。
提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。
実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-11T05:55:51Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。