論文の概要: Runtime Deep Model Multiplexing for Reduced Latency and Energy
Consumption Inference
- arxiv url: http://arxiv.org/abs/2001.05870v2
- Date: Thu, 17 Sep 2020 17:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:34:35.945357
- Title: Runtime Deep Model Multiplexing for Reduced Latency and Energy
Consumption Inference
- Title(参考訳): 遅延低減とエネルギー消費推定のための実行時深部モデル多重化
- Authors: Amir Erfan Eshratifar and Massoud Pedram
- Abstract要約: 本稿では、最小の計算資源を消費するモデルを呼び出す軽量なニューラルマルチプレクサを設計する学習アルゴリズムを提案する。
モバイルデバイスは、提案されたアルゴリズムを使用して、簡単な入力をローカルに推論しながら、ハード入力をクラウドにオフロードすることができる。
- 参考スコア(独自算出の注目度): 6.896677899938492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a learning algorithm to design a light-weight neural multiplexer
that given the input and computational resource requirements, calls the model
that will consume the minimum compute resources for a successful inference.
Mobile devices can use the proposed algorithm to offload the hard inputs to the
cloud while inferring the easy ones locally. Besides, in the large scale
cloud-based intelligent applications, instead of replicating the most-accurate
model, a range of small and large models can be multiplexed from depending on
the input's complexity which will save the cloud's computational resources. The
input complexity or hardness is determined by the number of models that can
predict the correct label. For example, if no model can predict the label
correctly, then the input is considered as the hardest. The proposed algorithm
allows the mobile device to detect the inputs that can be processed locally and
the ones that require a larger model and should be sent a cloud server.
Therefore, the mobile user benefits from not only the local processing but also
from an accurate model hosted on a cloud server. Our experimental results show
that the proposed algorithm improves mobile's model accuracy by 8.52% which is
because of those inputs that are properly selected and offloaded to the cloud
server. In addition, it saves the cloud providers' compute resources by a
factor of 2.85x as small models are chosen for easier inputs.
- Abstract(参考訳): 本稿では,入力と計算リソースの要求を考慮し,最小計算資源を消費するモデルを呼び出す,軽量ニューラルネットワークを設計するための学習アルゴリズムを提案する。
モバイルデバイスは、提案アルゴリズムを使用して、簡単な入力をローカルに推論しながら、ハード入力をクラウドにオフロードすることができる。
さらに、クラウドベースのインテリジェントな大規模アプリケーションでは、最も正確なモデルを複製する代わりに、クラウドの計算リソースを節約する入力の複雑さに応じて、さまざまな小規模モデルと大規模モデルを多重化することができる。
入力の複雑さや硬さは、正しいラベルを予測できるモデルの数によって決定される。
例えば、モデルがラベルを正しく予測できない場合、入力は最も難しいと見なされる。
提案アルゴリズムにより,モバイル端末は,ローカルに処理可能な入力と,より大きなモデルを必要とし,クラウドサーバを送信すべき入力を検出することができる。
したがって、モバイルユーザはローカル処理だけでなく、クラウドサーバにホストされた正確なモデルからもメリットを享受できる。
実験の結果,提案アルゴリズムは,クラウドサーバに適切に選択およびオフロードされた入力によって,モバイルモデルの精度を8.52%向上させることがわかった。
さらに、入力を容易にするために小さなモデルが選択されるため、クラウドプロバイダの計算リソースを2.85倍削減する。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。
具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。
動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文 参考訳(メタデータ) (2024-10-16T02:06:27Z) - Combining Cloud and Mobile Computing for Machine Learning [2.595189746033637]
モデルセグメンテーションはユーザエクスペリエンスを改善するためのソリューションだと考えている。
この部門は、ユーザの待ち時間を短縮するだけでなく、クラウドのワークロードを最適化するための微調整も可能であることを示しています。
論文 参考訳(メタデータ) (2024-01-20T06:14:22Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - An Ensemble Mobile-Cloud Computing Method for Affordable and Accurate
Glucometer Readout [0.0]
本稿では,アンサンブル学習アルゴリズム,モバイル・クラウド・コンピューティング・サービスアーキテクチャ,高可用性と迅速な応答時間を実現するためのシンプルな圧縮手法を提案する。
提案手法は,2つの異なるデータセットに対して92.1%と97.7%の精度を実現し,従来の手法を40%改善し,(2) 必要な帯域幅を,1%の精度で45倍削減し,(3) モバイル専用,クラウド専用,スプリットコンピューティング,早期終了サービスモデルと比較して,優れた可用性を提供する。
論文 参考訳(メタデータ) (2023-01-04T18:48:53Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Complexity-aware Adaptive Training and Inference for Edge-Cloud
Distributed AI Systems [9.273593723275544]
IoTおよび機械学習アプリケーションは、リアルタイム処理を必要とする大量のデータを生成する。
我々は、エッジとクラウドの両方を利用してトレーニングと推論を行う分散AIシステムを提案する。
論文 参考訳(メタデータ) (2021-09-14T05:03:54Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。