論文の概要: SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference
- arxiv url: http://arxiv.org/abs/2511.19457v1
- Date: Fri, 21 Nov 2025 09:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:03.997039
- Title: SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference
- Title(参考訳): SparOA:エッジDNN推論のためのスパースと演算子対応ハイブリッドスケジューリング
- Authors: Ziyang Zhang, Jie Liu, Luca Mottola,
- Abstract要約: SparOAはディープニューラルネットワーク(DNN)モデルのためのハイブリッド推論フレームワークである。
演算子スケジューリングを最適化するために、疎度と計算強度の両方を使用する。
その結果、SparOAは全てのベースラインと比較して平均1.22-1.31倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 24.492347669238175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The resource demands of deep neural network (DNN) models introduce significant performance challenges, especially when deployed on resource-constrained edge devices. Existing solutions like model compression often sacrifice accuracy, while specialized hardware remains costly and inflexible. Hybrid inference methods, however, typically overlook how operator characteristics impact performance. In this work, we present SparOA, a CPU-GPU hybrid inference framework, which leverages both sparsity and computational intensity to optimize operator scheduling. SparOA embraces aforementioned challenges through three key components: (1) a threshold predictor that accurately determines optimal sparsity and computational intensity thresholds; (2) a reinforcement learning-based scheduler that dynamically optimizes resource allocation based on real-time hardware states; and (3) a hybrid inference engine that enhances efficiency through asynchronous execution and batch size optimization.Extensive results show that SparOA achieves an average speedup of 1.22-1.31x compared to all baselines, and outperforms the CPU-Only by up to 50.7x. Also, SparOA achieves optimal energy-per-inference, consuming 7\%-16\% less energy than the SOTA co-execution baseline.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルのリソース要求は、特にリソース制約されたエッジデバイスにデプロイする場合に、大きなパフォーマンス上の課題をもたらす。
モデル圧縮のような既存のソリューションは、しばしば精度を犠牲にします。
しかし、ハイブリッド推論手法は一般に演算子の特性が性能にどのように影響するかを見落としている。
本稿では,CPU-GPUハイブリッド推論フレームワークであるSparOAについて述べる。
SparOAは,(1)最適間隔と計算強度の閾値を正確に決定するしきい値予測器,(2)リアルタイムハードウェア状態に基づいてリソース割り当てを動的に最適化する強化学習ベースのスケジューラ,(3)非同期実行とバッチサイズ最適化による効率向上を図ったハイブリッド推論エンジン,の3つの主要なコンポーネントを通じて,上記の課題を解決している。
また、SparOAは、SOTAコエグゼクションベースラインよりも7-%-16-%少ないエネルギーを消費し、最適エネルギー/推論を達成する。
関連論文リスト
- Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Accelerators [11.97184801369339]
高次テンソル分解は、エッジ展開のためのコンパクトなディープニューラルネットワークを得るために広く採用されている。
このようなハードウェアを意識しない設計は、テンソル化モデルの潜在的な遅延とエネルギーの利点を曖昧にすることが多い。
テンソル化ニューラルネットワークの効率的なトレーニングと推論のために,これらの次元を統一設計空間内に統一する共同探索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-22T08:18:40Z) - AoI-Aware Task Offloading and Transmission Optimization for Industrial IoT Networks: A Branching Deep Reinforcement Learning Approach [43.261887758877386]
産業用モノのインターネット(Industrial Internet of Things, IIoT)では、無線ネットワーク上で大量のデータを頻繁に送信することは、厳しいタイムライン要件を満たす必要がある。
Information (AoI)-aware multi-base station (BS) real-time monitoring framework to support extensive IIoT deployments。
論文 参考訳(メタデータ) (2025-10-18T09:14:39Z) - FORTRESS: Function-composition Optimized Real-Time Resilient Structural Segmentation via Kolmogorov-Arnold Enhanced Spatial Attention Networks [1.663204995903499]
FORTRESS (Function-composition Optimized Real-Time Resilient Structure) は、特別な手法を用いて精度と速度のバランスをとる新しいアーキテクチャである。
Fortressには,系統的に分離可能な畳み込みフレームワーク,適応型TiKAN統合,マルチスケールアテンション融合という,3つの重要なイノベーションが含まれている。
このアーキテクチャは 91% のパラメータ還元 (31M から 2.9M) 、91% の計算複雑性低減 (13.7 から 1.17 GFLOPs) 、および 3倍の推論速度向上によって、顕著な効率向上を実現している。
論文 参考訳(メタデータ) (2025-07-16T23:17:58Z) - Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。
アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文 参考訳(メタデータ) (2025-06-08T10:14:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。