論文の概要: Parallax: Runtime Parallelization for Operator Fallbacks in Heterogeneous Edge Systems
- arxiv url: http://arxiv.org/abs/2512.11532v1
- Date: Fri, 12 Dec 2025 13:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.773464
- Title: Parallax: Runtime Parallelization for Operator Fallbacks in Heterogeneous Edge Systems
- Title(参考訳): Parallax: 異種エッジシステムにおける演算子フォールバックのランタイム並列化
- Authors: Chong Tang, Hao Dai, Jagmohan Chauhan,
- Abstract要約: 既存のフレームワークは動的制御フロー演算子とサポート対象のカーネルを貧弱に処理し、CPUコアがアイドル状態になり、レイテンシとメモリスパイクが高くなる。
モデルやカスタム演算子実装を使わずに,モバイルDNN推論を高速化するフレームワークであるParallaxを紹介する。
Parallaxは最大で46%のレイテンシ削減を実現し、制御されたメモリオーバーヘッド(平均26.5%)を維持し、最先端のフレームワークと比較して最大30%の省エネを実現している。
- 参考スコア(独自算出の注目度): 6.9060172287001365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for real-time DNN applications on edge devices necessitates faster inference of increasingly complex models. Although many devices include specialized accelerators (e.g., mobile GPUs), dynamic control-flow operators and unsupported kernels often fall back to CPU execution. Existing frameworks handle these fallbacks poorly, leaving CPU cores idle and causing high latency and memory spikes. We introduce Parallax, a framework that accelerates mobile DNN inference without model refactoring or custom operator implementations. Parallax first partitions the computation DAG to expose parallelism, then employs branch-aware memory management with dedicated arenas and buffer reuse to reduce runtime footprint. An adaptive scheduler executes branches according to device memory constraints, meanwhile, fine-grained subgraph control enables heterogeneous inference of dynamic models. By evaluating on five representative DNNs across three different mobile devices, Parallax achieves up to 46% latency reduction, maintains controlled memory overhead (26.5% on average), and delivers up to 30% energy savings compared with state-of-the-art frameworks, offering improvements aligned with the responsiveness demands of real-time mobile inference.
- Abstract(参考訳): エッジデバイス上でのリアルタイムDNNアプリケーションの需要増加は、ますます複雑なモデルのより高速な推論を必要とする。
多くのデバイスには特別なアクセラレータ(モバイルGPUなど)が含まれているが、動的制御フロー演算子やサポート対象のカーネルはCPU実行に戻らないことが多い。
既存のフレームワークはこれらのフォールバックを処理しにくく、CPUコアはアイドル状態のままであり、高いレイテンシとメモリスパイクを引き起こす。
モデルリファクタリングやカスタムオペレータ実装なしで,モバイルDNN推論を高速化するフレームワークであるParallaxを紹介する。
Parallaxはまず並列性を公開するために計算DAGを分割し、専用のアリーナとバッファ再利用を備えたブランチ対応メモリ管理を使用して実行時のフットプリントを削減する。
適応スケジューラはデバイスメモリの制約に従って分岐を実行するが、細粒度のサブグラフ制御は動的モデルの異種推論を可能にする。
3つの異なるモバイルデバイスにわたる5つの代表的DNNを評価することで、Parallaxは最大46%のレイテンシ削減を実現し、制御されたメモリオーバーヘッド(平均26.5%)を維持し、最先端のフレームワークと比較して最大30%の省エネを実現し、リアルタイムなモバイル推論の応答性要求に沿った改善を提供する。
関連論文リスト
- Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures [4.058950730052848]
本稿では,FPGAを高速化したMRフレームワークであるMERINDAについて述べる。
一般的なMRワークロードでは、MERINDAはFPGAベースのLCCベースラインよりも6.3倍少ないサイクルを提供する。
論文 参考訳(メタデータ) (2025-12-05T19:38:34Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。
既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。
本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文 参考訳(メタデータ) (2025-03-27T03:03:09Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。