論文の概要: Puzzle: Scheduling Multiple Deep Learning Models on Mobile Device with Heterogeneous Processors
- arxiv url: http://arxiv.org/abs/2508.17764v1
- Date: Mon, 25 Aug 2025 08:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.684167
- Title: Puzzle: Scheduling Multiple Deep Learning Models on Mobile Device with Heterogeneous Processors
- Title(参考訳): Puzzle: 異種プロセッサを用いたモバイルデバイス上での複数のディープラーニングモデルのスケジューリング
- Authors: Duseok Kang, Yunseong Lee, Junghoon Kim,
- Abstract要約: ネットワークを複数のサブグラフに分割することで、異種プロセッサ上で複数のディープラーニングネットワークをスケジューリングする遺伝的アルゴリズムに基づく新しい手法を提案する。
このシステムであるPuzzleは、9つの最先端ネットワークを含むランダムに生成されたシナリオを用いて、広範囲な評価において優れた性能を示す。
その結果、Puzzleは、NPUのみとBest Mappingの2つのベースラインと比較して平均3.7と2.2倍の要求周波数をサポートでき、リアルタイム要件の同等レベルを満足できることを示した。
- 参考スコア(独自算出の注目度): 3.4864767445443867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning models are increasingly deployed on mobile devices, modern mobile devices incorporate deep learning-specific accelerators to handle the growing computational demands, thus increasing their hardware heterogeneity. However, existing works on scheduling deep learning workloads across these processors have significant limitations: most studies focus on single-model scenarios rather than realistic multi-model scenarios, overlook performance variations from different hardware/software configurations, and struggle with accurate execution time estimation. To address these challenges, we propose a novel genetic algorithm-based methodology for scheduling multiple deep learning networks on heterogeneous processors by partitioning the networks into multiple subgraphs. Our approach incorporates three different types of chromosomes for partition/mapping/priority exploration, and leverages device-in-the-loop profiling and evaluation for accurate execution time estimation. Based on this methodology, our system, Puzzle, demonstrates superior performance in extensive evaluations with randomly generated scenarios involving nine state-of-the-art networks. The results demonstrate Puzzle can support 3.7 and 2.2 times higher request frequency on average compared to the two heuristic baselines, NPU Only and Best Mapping, respectively, while satisfying the equivalent level of real-time requirements.
- Abstract(参考訳): ディープラーニングモデルがモバイルデバイスにますますデプロイされるにつれて、現代のモバイルデバイスには、ディープラーニング固有のアクセラレータが組み込まれて、計算要求の増加に対応することにより、ハードウェアの不均一性が増大する。
しかし、これらのプロセッサにまたがるディープラーニングワークロードのスケジューリングに関する既存の研究には、多くの研究は、現実的なマルチモデルシナリオではなく、単一モデルシナリオに焦点を当て、異なるハードウェア/ソフトウェア構成によるパフォーマンスのバリエーションを見落とし、正確な実行時間推定に苦労している、という大きな制限がある。
これらの課題に対処するために、ネットワークを複数のサブグラフに分割することで、異種プロセッサ上で複数のディープラーニングネットワークをスケジューリングする、遺伝的アルゴリズムに基づく新しい手法を提案する。
提案手法では,3種類の染色体を分割・マッピング・プライオリティ探索に利用し,デバイス・イン・ザ・ループ・プロファイリングを活用し,正確な実行時間推定を行う。
この手法に基づいて,9つの最先端ネットワークを含むランダムに生成されたシナリオを用いた広範囲な評価において,Puzzleは優れた性能を示す。
この結果から,Puzzleは2つのヒューリスティックベースライン(NPUのみ)とベストマッピング(Best Mapping)と比較して平均3.7と2.2倍の要求周波数をサポートできることがわかった。
関連論文リスト
- SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文 参考訳(メタデータ) (2023-12-19T22:08:49Z) - POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image
and Time Series Classification [8.190723030003804]
本稿では、異なるハードウェア環境と複数の分類タスクを対象とした逐次モデルベースNASアルゴリズムの第3版について述べる。
提案手法は,異なるタスクに適応するフレキシブルな構造とデータ処理パイプラインを維持しながら,大規模な検索空間内で競合するアーキテクチャを見つけることができる。
画像と時系列の分類データセットで実施された実験は、POPNASv3が多種多様な演算子を探索し、異なるシナリオで提供されるデータの種類に適した最適なアーキテクチャに収束できることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:14:14Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Multi-objective Asynchronous Successive Halving [10.632606255280649]
本稿では,非同期半減期 (ASHA) を多目的 (MO) 設定に拡張するアルゴリズムを提案する。
実験分析の結果,MO ASHAはMO HPOを大規模に実行可能であることがわかった。
我々のアルゴリズムは、この地域における将来の研究の新たなベースラインを確立する。
論文 参考訳(メタデータ) (2021-06-23T19:39:31Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - On the performance of deep learning models for time series
classification in streaming [0.0]
この研究は、データストリーミング分類のための様々なタイプのディープアーキテクチャのパフォーマンスを評価することである。
複数の時系列データセット上で,多層パーセプトロン,リカレント,畳み込み,時間的畳み込みニューラルネットワークなどのモデルを評価する。
論文 参考訳(メタデータ) (2020-03-05T11:41:29Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。