Fugu-MT 論文翻訳(概要): iServe: An Intent-based Serving System for LLMs

論文の概要: iServe: An Intent-based Serving System for LLMs

arxiv url: http://arxiv.org/abs/2501.13111v1
Date: Wed, 08 Jan 2025 14:38:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-26 14:22:38.299621
Title: iServe: An Intent-based Serving System for LLMs
Title（参考訳）: iServe: LLMのインテントベースサービングシステム
Authors: Dimitrios Liakopoulos, Tianrui Hu, Prasoon Sinha, Neeraja J. Yadwadkar,
Abstract要約: iServeは、分散大言語モデル(LLM)推論のためのインテントベースのシステムである。手動でデプロイメント設定を選択する代わりに、開発者は単純にインテントを指定する。 iServeは最先端のシステムと比べてユーザー意図に最も合う。
参考スコア（独自算出の注目度）: 0.34998703934432684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are becoming ubiquitous across industries, where applications demand they fulfill diverse user intents. However, developers currently face the challenge of manually exploring numerous deployment configurations - combinations of parallelism and compression techniques that impact resource usage, latency, cost, and accuracy - to meet these intents. Assessing the impact of these configurations on user metrics requires extensive, costly profiling for each model. Existing approaches avoid this expense by using fixed, static configurations, but this often leads to sub-optimal performance and higher costs. Moreover, none of these solutions dynamically adapt to changing user intents to balance latency and cost, effectively. We present iServe, an automated, intent-based system for distributed LLM inference. Instead of manually selecting deployment configurations, developers simply specify their intent - such as minimizing latency, reducing cost, or meeting specific targets for either. iServe introduces fingerprints, lightweight representations of LLMs, to efficiently estimate how different configurations impact latency and memory usage. Based on these insights and GPU availability, iServe dynamically selects the optimal configuration to align with the user's intent. For various LLMs and query arrival rates, iServe best meets user intents compared to state-of-the-art systems by reducing latency by 77.62% and SLO violations by 7.09x while improving GPU throughput by 4.72x. Moreover, iServe's fingerprint-based profiling reduces profiling cost by 6.05x (GPU-hours) compared to baselines.
Abstract（参考訳）: 大規模言語モデル(LLM)は、アプリケーションが多様なユーザ意図を満たすことを要求する業界で広く普及している。しかしながら、開発者は現在、リソース使用量、レイテンシ、コスト、正確性に影響を及ぼす並列処理と圧縮技術の組み合わせという、多数のデプロイメント構成を手動で調査する課題に直面しています。これらの構成がユーザメトリクスに与える影響を評価するには、各モデルに対して広範囲でコストのかかるプロファイリングが必要です。既存のアプローチでは、固定された静的な設定を使用することで、このコストを回避することができるが、これはしばしば、サブ最適パフォーマンスとより高いコストにつながる。さらに、これらのソリューションは、レイテンシとコストのバランスをとるために、ユーザの意図の変更に動的に適応することはできません。分散LLM推論のための自動インテントベースシステムであるiServeについて述べる。手動でデプロイメント設定を選択する代わりに、開発者は単に意図を指定すればよい。 iServeでは,LLMの軽量表現である指紋を導入して,異なる構成がレイテンシやメモリ使用量に与える影響を効率的に見積もっている。これらの洞察とGPU可用性に基づいて、iServeはユーザの意図に合わせて最適な設定を動的に選択する。様々なLSMとクエリの到着率において、iServeは最新システムと比較して、レイテンシを77.62%削減し、SLO違反を7.09倍削減し、GPUスループットを4.72倍改善する。さらに、iServeの指紋ベースのプロファイリングは、ベースラインに比べてプロファイリングコストを6.05倍(GPU時間)削減する。

関連論文リスト

Routing, Cascades, and User Choice for LLMs [9.28138618885869]
ユーザ行動に対するLLMルーティングの効果について検討する。 2つのモデルを持つLLMプロバイダと,タスクの再実行や放棄が可能なユーザとの間でのゲームを提案する。ユーザの目的は、モデルの使用の遅延を抑えるためにユーティリティを最大化することであり、一方、プロバイダは、ユーザをサービスするコストを最小限にすることである。
論文参考訳（メタデータ） (2026-02-10T15:39:31Z)
Don't Start Over: A Cost-Effective Framework for Migrating Personalized Prompts Between LLMs [51.79252689855809]
LLM(Large Language Models)におけるパーソナライゼーションは、しばしばユーザ固有のソフトプロンプトに依存する。非互換モデル間でパーソナライズされたプロンプトを効率的に移行するフレームワークであるPrompt-level User Migration Adapter (PUMA)を提案する。 3つの大規模データセットの実験では、我々の手法が一致しているか、あるいはスクラッチから再トレーニングのパフォーマンスを上回り、計算コストを最大98%削減する。
論文参考訳（メタデータ） (2026-01-17T12:30:31Z)
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文参考訳（メタデータ） (2025-11-24T08:46:36Z)
Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。 2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文参考訳（メタデータ） (2025-09-02T03:34:36Z)
Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。 CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文参考訳（メタデータ） (2025-08-17T20:16:44Z)
BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。 UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文参考訳（メタデータ） (2025-07-23T01:51:48Z)
SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding [18.45994543035372]
投機的復号化は、大規模言語モデル推論を加速するための説得力のある手法として登場した。既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多い。本稿では,リアルタイム要求負荷に応じて投機戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
論文参考訳（メタデータ） (2025-03-07T02:27:51Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。 AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文参考訳（メタデータ） (2025-01-21T14:15:01Z)
Efficient Deployment of Large Language Models on Resource-constrained Devices [12.644230479753476]
様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。 FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
論文参考訳（メタデータ） (2025-01-05T04:38:11Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文参考訳（メタデータ） (2024-12-06T05:46:43Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Prompt Tuning as User Inherent Profile Inference Machine [53.78398656789463]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。プロファイル量子化コードブックは、プロファイル埋め込みによるモダリティギャップを協調IDにブリッジする。 4つの公開データセットの実験では、UserIP-Tuningは最先端のレコメンデーションアルゴリズムを上回っている。
論文参考訳（メタデータ） (2024-08-13T02:25:46Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文参考訳（メタデータ） (2024-01-09T06:49:40Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文参考訳（メタデータ） (2023-04-21T11:19:49Z)
Good Intentions: Adaptive Parameter Management via Intent Signaling [50.01012642343155]
そこで本研究では,既存の機械学習スタックに自然に統合された新たなインテントシグナリング機構を提案する。次に、このメカニズムに基づいて、完全に適応的でゼロチューニングのパラメータマネージャであるAdaPMについて説明する。私たちの評価では、AdaPMは、最先端のパラメータマネージャにマッチするか、あるいはパフォーマンスが良くなりました。
論文参考訳（メタデータ） (2022-06-01T13:02:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。