論文の概要: Fairness in Serving Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00588v1
- Date: Sun, 31 Dec 2023 21:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:44:31.285878
- Title: Fairness in Serving Large Language Models
- Title(参考訳): 大規模言語モデルの実現における公正性
- Authors: Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang
Zhuo, Joseph E. Gonzalez, Ion Stoica
- Abstract要約: 本稿では,処理された入出力トークンの数を考慮したコスト関数に基づくサービスフェアネスの定義を提案する。
本稿では,新たなスケジューリングアルゴリズムであるVirtual Counter Token (VTC)を提案する。
サービススケジューラの2倍の厳しい上限を証明し、作業保守の要件に準拠します。
- 参考スコア(独自算出の注目度): 47.79139320220292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-demand LLM inference services (e.g., ChatGPT and BARD) support a wide
range of requests from short chat conversations to long document reading. To
ensure that all client requests are processed fairly, most major LLM inference
services have request rate limits, to ensure that no client can dominate the
request queue. However, this rudimentary notion of fairness also results in
under-utilization of the resources and poor client experience when there is
spare capacity. While there is a rich literature on fair scheduling, serving
LLMs presents new challenges due to their unpredictable request lengths and
their unique batching characteristics on parallel accelerators. This paper
introduces the definition of LLM serving fairness based on a cost function that
accounts for the number of input and output tokens processed. To achieve
fairness in serving, we propose a novel scheduling algorithm, the Virtual Token
Counter (VTC), a fair scheduler based on the continuous batching mechanism. We
prove a 2x tight upper bound on the service difference between two backlogged
clients, adhering to the requirement of work-conserving. Through extensive
experiments, we demonstrate the superior performance of VTC in ensuring
fairness, especially in contrast to other baseline methods, which exhibit
shortcomings under various conditions.
- Abstract(参考訳): オンデマンドのllm推論サービス(chatgptやbardなど)は、短いチャット会話から長いドキュメントの読み込みまで、幅広いリクエストをサポートしている。
すべてのクライアントリクエストが公平に処理されることを保証するため、ほとんどの主要なllm推論サービスはリクエストレート制限を持ち、クライアントがリクエストキューを支配できないようにする。
しかし、この初歩的な公平性の概念は、余分なキャパシティがある場合、リソースの過小評価とクライアントエクスペリエンスの低下をもたらす。
フェアスケジューリングには豊富な文献があるが、LLMは予測不可能な要求長と並列アクセラレータ上での独自のバッチ特性のために、新たな課題を提示している。
本稿では,処理された入力および出力トークンの数を考慮に入れたコスト関数に基づいて,LLMサービスフェアネスの定義を提案する。
サービスにおける公平性を達成するために,連続バッチ機構に基づく公平なスケジューラであるVirtual Token Counter (VTC)を提案する。
2つのバックログ化されたクライアント間のサービス差に2倍の厳しい上限があることを証明します。
様々な条件下での欠点を示す他のベースライン法と対照的に, 公平性を確保するために, VTCの優れた性能を示す。
関連論文リスト
- Ensuring Fair LLM Serving Amid Diverse Applications [13.346272116841288]
本稿は,Microsoft がホストする実世界のマルチテナント LLM プラットフォームである MS CoPilot 上で,何千人ものユーザからの要求を分析した。
本分析では,既存の手法が不十分であることを確認し,多様なアプリケーションにまたがる公平なLCMアクセスを保証するシステムであるFairServeの開発を導く。
論文 参考訳(メタデータ) (2024-11-24T22:35:44Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Scaling Laws for Discriminative Classification in Large Language Models [5.56747083508457]
言語モデリングタスクを識別的分類タスクとして再定義することで、LLMを使用して顧客サポートの支持者を増強できるシステムを提案する。
オフラインとオンラインの両方の実験の結果を提示し,実験システムのオフラインゲインと統計的に有意なオンラインリフトを観測した。
モデルのサイズ、レイテンシ、正確性に関するトレードオフの空間について議論し、将来的なアプリケーションを提案することで、私たちは締めくくっています。
論文 参考訳(メタデータ) (2024-05-24T17:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。