論文の概要: Cascade: A Platform for Delay-Sensitive Edge Intelligence
- arxiv url: http://arxiv.org/abs/2311.17329v1
- Date: Wed, 29 Nov 2023 03:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:55:23.297930
- Title: Cascade: A Platform for Delay-Sensitive Edge Intelligence
- Title(参考訳): Cascade: 遅延感度エッジインテリジェンスのためのプラットフォーム
- Authors: Weijia Song, Thiago Garrett, Yuting Yang, Mingzhao Liu, Edward Tremel,
Lorenzo Rosa, Andrea Merlina, Roman Vitenberg, and Ken Birman
- Abstract要約: Cascadeは、このパズルを解き放つためのAI/MLホスティングプラットフォームだ。
評価の結果,カスケードはスループットを損なうことなく,桁違いに遅延を低減できることがわかった。
- 参考スコア(独自算出の注目度): 0.7898189318433307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive intelligent computing applications are increasingly prevalent,
creating a need for AI/ML platforms optimized to reduce per-event latency while
maintaining high throughput and efficient resource management. Yet many
intelligent applications run on AI/ML platforms that optimize for high
throughput even at the cost of high tail-latency. Cascade is a new AI/ML
hosting platform intended to untangle this puzzle. Innovations include a
legacy-friendly storage layer that moves data with minimal copying and a "fast
path" that collocates data and computation to maximize responsiveness. Our
evaluation shows that Cascade reduces latency by orders of magnitude with no
loss of throughput.
- Abstract(参考訳): インタラクティブなインテリジェントコンピューティングアプリケーションはますます普及し、高スループットと効率的なリソース管理を維持しながら、イベント毎のレイテンシを低減するために最適化されたAI/MLプラットフォームの必要性が生まれている。
しかし、多くのインテリジェントアプリケーションはAI/MLプラットフォーム上で動作し、高いテールレイテンシーのコストでさえ高いスループットを最適化する。
Cascadeは、このパズルを解き放つためのAI/MLホスティングプラットフォームだ。
イノベーションには、最小限のコピーでデータを動かすレガシーフレンドリーなストレージ層と、応答性を最大化するためにデータと計算をコロケーションする"高速パス"が含まれる。
評価の結果,カスケードはスループットを損なうことなく,桁違いに遅延を低減できることがわかった。
関連論文リスト
- Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers [21.91815582658188]
大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。
圧倒的な複雑さは、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。
推定遅延を著しく低減するために並列に計算できる準独立層を同定することを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:30:01Z) - ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching [9.884452250478216]
我々は,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。
アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。
システムレベルでは、ALISAは3フェーズのトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
論文 参考訳(メタデータ) (2024-03-26T01:46:34Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Time Minimization in Hierarchical Federated Learning [11.678121177730718]
フェデレートラーニング(Federated Learning)は、ユーザ機器が機械学習タスクをローカルに実行し、モデルパラメータを中央サーバにアップロードする、現代的な分散機械学習技術である。
本稿では,クラウドとエッジサーバ間のモデルパラメータ交換を含む3層階層型階層型学習システムについて考察する。
論文 参考訳(メタデータ) (2022-10-07T13:53:20Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。