論文の概要: Multi-DNN Inference of Sparse Models on Edge SoCs
- arxiv url: http://arxiv.org/abs/2603.09642v1
- Date: Tue, 10 Mar 2026 13:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.329436
- Title: Multi-DNN Inference of Sparse Models on Edge SoCs
- Title(参考訳): エッジSoCにおけるスパースモデルのマルチDNN推論
- Authors: Jiawei Luo, Di Wu, Simon Dobson, Blesson Varghese,
- Abstract要約: 本稿では,スパースモデルからのサブグラフを再学習せずに組換えることで,モデル変種を生成するマルチDNN推論システムのためのモデル縫合法を提案する。
SparseLoomはSLO違反率を最大74%削減し、スループットを最大2.31倍改善し、メモリオーバーヘッドを最先端のマルチDNN推論システムと比較して平均28%低減することを示した。
- 参考スコア(独自算出の注目度): 5.172498227474015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern edge applications increasingly require multi-DNN inference systems to execute tasks on heterogeneous processors, gaining performance from both concurrent execution and from matching each model to the most suited accelerator. However, existing systems support only a single model (or a few sparse variants) per task, which impedes the efficiency of this matching and results in high Service Level Objective violation rates. We introduce model stitching for multi-DNN inference systems, which creates model variants by recombining subgraphs from sparse models without re-training. We present a demonstrator system, SparseLoom, that shows model stitching can be deployed to SoCs. We show experimentally that SparseLoom reduces SLO violation rates by up to 74%, improves throughput by up to 2.31x, and lowers memory overhead by an average of 28% compared to state-of-the-art multi-DNN inference systems.
- Abstract(参考訳): 現代のエッジアプリケーションは、異種プロセッサ上でタスクを実行するためにマルチDNN推論システムを必要としている。
しかし、既存のシステムはタスクごとに1つのモデル(またはいくつかのスパース変種)しかサポートしていないため、このマッチングの効率が損なわれ、サービスレベルオブジェクトの違反率が高くなります。
本稿では,スパースモデルからのサブグラフを再学習せずに組換えることで,モデル変種を生成するマルチDNN推論システムのためのモデル縫合法を提案する。
本稿では,モデル縫合をSoCに展開可能なデモストレータシステムであるSparseLoomを提案する。
SparseLoomはSLO違反率を最大74%削減し、スループットを最大2.31倍改善し、メモリオーバーヘッドを最先端のマルチDNN推論システムと比較して平均28%低減することを示した。
関連論文リスト
- A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:27:20Z) - MSA-CNN: A Lightweight Multi-Scale CNN with Attention for Sleep Stage Classification [14.221889446444433]
マルチスケール・アテンション畳み込みニューラルネットワーク(MSA-CNN)を導入する。
時間的および空間的特徴抽出を分離し、コスト効率のよい大域的空間畳み込みを用いることにより、モデル複雑性をさらに低減する。
以上の結果から,MSA-CNNは3つのデータセットの全てのベースラインモデルに対して,精度とCohen's kappaを比較検討した。
論文 参考訳(メタデータ) (2025-01-06T11:46:02Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Single-Layer Graph Convolutional Networks For Recommendation [17.3621098912528]
Graph Convolutional Networks (GCNs) は、推奨タスクで最先端のパフォーマンスを達成した。
既存のGCNモデルでは、関連するすべてのノード間で再帰アグリゲーションを行う傾向があり、計算上の重荷が発生する。
DA類似性によってフィルタリングされた隣人からの情報を集約し,ノード表現を生成するための単一のGCN層を提案する。
論文 参考訳(メタデータ) (2020-06-07T14:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。