論文の概要: CARIn: Constraint-Aware and Responsive Inference on Heterogeneous Devices for Single- and Multi-DNN Workloads
- arxiv url: http://arxiv.org/abs/2409.01089v1
- Date: Mon, 2 Sep 2024 09:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:26:52.474548
- Title: CARIn: Constraint-Aware and Responsive Inference on Heterogeneous Devices for Single- and Multi-DNN Workloads
- Title(参考訳): CARIn:シングルDNNおよびマルチDNNワークロードのための不均一デバイスに対する制約認識と応答推論
- Authors: Ioannis Panopoulos, Stylianos I. Venieris, Iakovos S. Venieris,
- Abstract要約: 本稿では,モバイルデバイス上でのディープニューラルネットワーク(DNN)の実行を最適化する上での課題に対処する。
CARInはシングルDNNアプリケーションとマルチDNNアプリケーションの両方を最適化するための新しいフレームワークである。
現状のOODInフレームワークとは対照的に,単一モデルの設計では1.92倍,最大10.69倍となる。
- 参考スコア(独自算出の注目度): 4.556037016746581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relentless expansion of deep learning applications in recent years has prompted a pivotal shift toward on-device execution, driven by the urgent need for real-time processing, heightened privacy concerns, and reduced latency across diverse domains. This article addresses the challenges inherent in optimising the execution of deep neural networks (DNNs) on mobile devices, with a focus on device heterogeneity, multi-DNN execution, and dynamic runtime adaptation. We introduce CARIn, a novel framework designed for the optimised deployment of both single- and multi-DNN applications under user-defined service-level objectives. Leveraging an expressive multi-objective optimisation framework and a runtime-aware sorting and search algorithm (RASS) as the MOO solver, CARIn facilitates efficient adaptation to dynamic conditions while addressing resource contention issues associated with multi-DNN execution. Notably, RASS generates a set of configurations, anticipating subsequent runtime adaptation, ensuring rapid, low-overhead adjustments in response to environmental fluctuations. Extensive evaluation across diverse tasks, including text classification, scene recognition, and face analysis, showcases the versatility of CARIn across various model architectures, such as Convolutional Neural Networks and Transformers, and realistic use cases. We observe a substantial enhancement in the fair treatment of the problem's objectives, reaching 1.92x when compared to single-model designs and up to 10.69x in contrast to the state-of-the-art OODIn framework. Additionally, we achieve a significant gain of up to 4.06x over hardware-unaware designs in multi-DNN applications. Finally, our framework sustains its performance while effectively eliminating the time overhead associated with identifying the optimal design in response to environmental challenges.
- Abstract(参考訳): 近年のディープラーニングアプリケーションの絶え間ない拡大は、リアルタイム処理の急激な要求、プライバシーの懸念の高まり、さまざまなドメイン間のレイテンシの低減などによって、デバイス上での実行に対する重要なシフトを引き起こしている。
本稿では,モバイルデバイス上でのディープニューラルネットワーク(DNN)の実行を最適化する上で,デバイスの不均一性,マルチDNN実行,動的ランタイム適応といった課題に対処する。
CARInは、ユーザ定義のサービスレベルの目的の下で、シングルDNNおよびマルチDNNアプリケーションの最適化デプロイ用に設計された新しいフレームワークである。
MOOソルバとして表現型多目的最適化フレームワークとランタイム対応ソート・検索アルゴリズム(RASS)を活用して、CARInは、マルチDNN実行に伴うリソース競合問題に対処しながら、動的条件への効率的な適応を容易にする。
特に、RASSは一連の構成を生成し、その後の実行時適応を予測し、環境変動に応じて迅速に低オーバーヘッドの調整を行う。
テキスト分類、シーン認識、顔分析など、さまざまなタスクにわたる広範囲な評価は、畳み込みニューラルネットワークやトランスフォーマー、現実的なユースケースなど、さまざまなモデルアーキテクチャにおけるCARInの汎用性を示している。
現状のOODInフレームワークとは対照的に,単一モデルの設計では1.92倍,最大10.69倍に達した。
さらに,マルチDNNアプリケーションにおいてハードウェアを意識しない設計に比べて,最大4.06倍の高速化を実現している。
最後に,環境問題に対する最適設計の特定に係わる時間的オーバーヘッドを効果的に排除しつつ,その性能を維持する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Towards Leveraging AutoML for Sustainable Deep Learning: A Multi-Objective HPO Approach on Deep Shift Neural Networks [16.314030132923026]
本研究では,資源消費を最小化しつつ,DSNNの性能を最大化するためのハイパーパラメータ最適化(HPO)の影響について検討する。
実験の結果,提案手法の有効性が示され,精度が80%以上,計算コストが低いモデルが得られた。
論文 参考訳(メタデータ) (2024-04-02T14:03:37Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - DynaMIX: Resource Optimization for DNN-Based Real-Time Applications on a
Multi-Tasking System [20.882393722208608]
より多くのディープニューラルネットワーク(DNN)が開発され、自律走行車(AV)に配備されている。
期待と要求の高まりに応えるため、AVは、複数の車載アプリに対して、制限されたオンボードコンピューティングリソースを"最適化"する必要がある。
並列アプリケーションのリソース要件を最適化し,実行精度を最大化するDynamixを提案する。
論文 参考訳(メタデータ) (2023-02-03T06:33:28Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - A Progressive Sub-Network Searching Framework for Dynamic Inference [33.93841415140311]
本稿では、トレーニング可能なノイズランキング、チャネルグループ、微調整しきい値設定、サブネット再選択など、いくつかの効果的な手法を組み込んだプログレッシブサブネット探索フレームワークを提案する。
提案手法は,従来普及していたUniversally-Slimmable-Networkの4.4%と平均2.3%と,モデルサイズが同じであるImageNetデータセットと比較して,より優れた動的推論精度を実現する。
論文 参考訳(メタデータ) (2020-09-11T22:56:02Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z) - Joint Multi-User DNN Partitioning and Computational Resource Allocation
for Collaborative Edge Intelligence [21.55340197267767]
Mobile Edge Computing(MEC)は、ネットワークエッジにさまざまなリソースを提供する有望なサポートアーキテクチャとして登場した。
エッジサーバの助けを借りて、ユーザ機器(UE)はディープニューラルネットワーク(DNN)ベースのAIアプリケーションを実行することができる。
最適解を時間内に達成できるIAO (Iterative Alternating Optimization) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T09:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。