論文の概要: Arctic Inference with Shift Parallelism: Fast and Efficient Open Source Inference System for Enterprise AI
- arxiv url: http://arxiv.org/abs/2507.11830v1
- Date: Wed, 16 Jul 2025 01:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.190524
- Title: Arctic Inference with Shift Parallelism: Fast and Efficient Open Source Inference System for Enterprise AI
- Title(参考訳): シフト並列性による北極域の推論 - エンタープライズAIのための高速かつ効率的なオープンソース推論システム
- Authors: Samyam Rajbhandari, Mert Hidayetoglu, Aurick Qiao, Ye Wang, Juncheng Yang, Jeff Rasley, Michael Wyatt, Yuxiong He,
- Abstract要約: Arctic InferenceはSnowflake AI ResearchのオープンソースvLLMプラグインである。
動的並列化戦略であるShift Parallelismを導入している。
要求完了の最大3.4倍、生成の1.75倍、埋め込み用のGPU当たり1.6Mトークン/秒を実現している。
- 参考スコア(独自算出の注目度): 23.222987985166395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference is now the dominant AI workload, yet existing systems force trade-offs between latency, throughput, and cost. Arctic Inference, an open-source vLLM plugin from Snowflake AI Research, introduces Shift Parallelism, a dynamic parallelism strategy that adapts to real-world traffic while integrating speculative decoding, SwiftKV compute reduction, and optimized embedding inference. It achieves up to 3.4 times faster request completion, 1.75 times faster generation, and 1.6M tokens/sec per GPU for embeddings, outperforming both latency- and throughput-optimized deployments. Already powering Snowflake Cortex AI, Arctic Inference delivers state-of-the-art, cost-effective inference for enterprise AI and is now available to the community.
- Abstract(参考訳): 推論はAIワークロードの主流となっているが、既存のシステムはレイテンシ、スループット、コストのトレードオフを強制する。
Snowflake AI ResearchのオープンソースvLLMプラグインであるArctic Inferenceは、投機的デコーディング、SwiftKV計算の削減、最適化された埋め込み推論を統合しながら、現実のトラフィックに適応する動的並列性戦略であるShift Parallelismを導入した。
要求完了の最大3.4倍高速、生成の1.75倍高速、埋め込み用のGPU当たり1.6Mトークン/秒を実現し、レイテンシとスループットに最適化されたデプロイメントの両方を上回っている。
すでにSnowflake Cortex AIに力を入れているArctic Inferenceは、エンタープライズAIの最先端で費用対効果の高い推論を提供しており、現在はコミュニティで利用できる。
関連論文リスト
- KAITIAN: A Unified Communication Framework for Enabling Efficient Collaboration Across Heterogeneous Accelerators in Embodied AI Systems [5.241889216655924]
KAITIANは、AIワークロードのための新しい分散通信フレームワークである。
ベンダー最適化されたグループ内効率のための通信ライブラリとグループ間相互運用性のための汎用通信プロトコルを統合する。
ベースラインの均質システムと比較してトレーニング時間を最大42%短縮することができる。
論文 参考訳(メタデータ) (2025-05-15T11:29:43Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Accelerating AI and Computer Vision for Satellite Pose Estimation on the Intel Myriad X Embedded SoC [3.829322478948514]
本稿では,インテルのMovidius Myriad Xを用いたハイブリッドAI/CVシステムを構築し,衛星の宇宙ミッションにおける姿勢を初期化・追跡する。
提案したシングルチップ,ロバスト推定,リアルタイムソリューションは,2Wの限られたパワーエンベロープ内で,1メガピクセルのRGB画像に対して最大5FPSのスループットを提供する。
論文 参考訳(メタデータ) (2024-09-19T17:50:50Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。