論文の概要: ALTO: An Efficient Network Orchestrator for Compound AI Systems
- arxiv url: http://arxiv.org/abs/2403.04311v1
- Date: Thu, 7 Mar 2024 08:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:46:25.116517
- Title: ALTO: An Efficient Network Orchestrator for Compound AI Systems
- Title(参考訳): ALTO:複合AIシステムのための効率的なネットワークオーケストレータ
- Authors: Keshav Santhanam, Deepti Raghavan, Muhammad Shahir Rahman, Thejas
Venkatesh, Neha Kunjal, Pratiksha Thaker, Philip Levis, Matei Zaharia
- Abstract要約: ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
- 参考スコア(独自算出の注目度): 20.880866765513066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ALTO, a network orchestrator for efficiently serving compound AI
systems such as pipelines of language models. ALTO achieves high throughput and
low latency by taking advantage of an optimization opportunity specific to
generative language models: streaming intermediate outputs. As language models
produce outputs token by token, ALTO exposes opportunities to stream
intermediate outputs between stages when possible. We highlight two new
challenges of correctness and load balancing which emerge when streaming
intermediate data across distributed pipeline stage instances. We also motivate
the need for an aggregation-aware routing interface and distributed
prompt-aware scheduling to address these challenges. We demonstrate the impact
of ALTO's partial output streaming on a complex chatbot verification pipeline,
increasing throughput by up to 3x for a fixed latency target of 4 seconds /
request while also reducing tail latency by 1.8x compared to a baseline serving
approach.
- Abstract(参考訳): 本稿では,言語モデルのパイプラインなどの複合AIシステムを実現するネットワークオーケストレータであるALTOを提案する。
altoは生成言語モデルに特有の最適化機会を活用することで、高いスループットと低レイテンシを実現している。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングの2つの新たな課題に注目した。
また、これらの課題に対処するために、アグリゲーション対応のルーティングインターフェースと分散プロンプト対応のスケジューリングの必要性も動機付けている。
複雑なチャットボット検証パイプラインにおけるALTOの部分出力ストリーミングの影響を実証し、固定遅延目標の4秒/要求に対してスループットを最大3倍にし、ベースラインサービスアプローチと比較してテールレイテンシを1.8倍に削減した。
関連論文リスト
- PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。
評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文 参考訳(メタデータ) (2024-03-08T21:09:20Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine
Learning for Real-Time Event-based Spatio-Temporal Data [9.291620200143903]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - Efficient Deep Speech Understanding at the Edge [1.145820303039203]
本稿では,限られたリソースを持つエッジデバイス上での音声理解を強化することを目的とする。
ハイブリッド戦略を採用した当社のアプローチは,デバイス上での実行と入力のオフロードの高速化に重点を置いている。
XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を実証しました。
論文 参考訳(メタデータ) (2023-11-22T17:14:18Z) - A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC
in Industrial IoT [16.167107624956294]
産業用IoT(Industrial Internet of Things)ネットワークは、重要なプロセスをサポートするために、ウルトラ信頼性の低い低レイテンシ通信(URLLC)を提供する。
無線リソースを割り当てるための標準プロトコルは、特にアップリンク通信において、レイテンシと信頼性のトレードオフを最適化しない可能性がある。
論文 参考訳(メタデータ) (2023-11-21T12:22:04Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Relay-Assisted Cooperative Federated Learning [10.05493937334448]
オーバー・ザ・エアの計算により、モバイルデバイスはローカルモデルを同時にアップロードできる。
無線チャネルの消失により、エッジサーバにおけるモデル集約誤差は、すべてのデバイスの中で最も弱いチャネルに支配される。
本稿では,トラグラー問題に効果的に対処するリレー支援型協調型FL方式を提案する。
論文 参考訳(メタデータ) (2021-07-20T14:06:19Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。