論文の概要: Ensuring Fair LLM Serving Amid Diverse Applications
- arxiv url: http://arxiv.org/abs/2411.15997v1
- Date: Sun, 24 Nov 2024 22:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:26.798875
- Title: Ensuring Fair LLM Serving Amid Diverse Applications
- Title(参考訳): 海外応用における公平なLDMの実現
- Authors: Redwan Ibne Seraj Khan, Kunal Jain, Haiying Shen, Ankur Mallick, Anjaly Parayil, Anoop Kulkarni, Steve Kofsky, Pankhuri Choudhary, Renèe St. Amant, Rujia Wang, Yue Cheng, Ali R. Butt, Victor Rühle, Chetan Bansal, Saravan Rajmohan,
- Abstract要約: 本稿は,Microsoft がホストする実世界のマルチテナント LLM プラットフォームである MS CoPilot 上で,何千人ものユーザからの要求を分析した。
本分析では,既存の手法が不十分であることを確認し,多様なアプリケーションにまたがる公平なLCMアクセスを保証するシステムであるFairServeの開発を導く。
- 参考スコア(独自算出の注目度): 13.346272116841288
- License:
- Abstract: In a multi-tenant large language model (LLM) serving platform hosting diverse applications, some users may submit an excessive number of requests, causing the service to become unavailable to other users and creating unfairness. Existing fairness approaches do not account for variations in token lengths across applications and multiple LLM calls, making them unsuitable for such platforms. To address the fairness challenge, this paper analyzes millions of requests from thousands of users on MS CoPilot, a real-world multi-tenant LLM platform hosted by Microsoft. Our analysis confirms the inadequacy of existing methods and guides the development of FairServe, a system that ensures fair LLM access across diverse applications. FairServe proposes application-characteristic aware request throttling coupled with a weighted service counter based scheduling technique to curb abusive behavior and ensure fairness. Our experimental results on real-world traces demonstrate FairServe's superior performance compared to the state-of-the-art method in ensuring fairness. We are actively working on deploying our system in production, expecting to benefit millions of customers world-wide.
- Abstract(参考訳): 多様なアプリケーションをホストするプラットフォームを提供するマルチテナントな大規模言語モデル(LLM)では、一部のユーザは過剰なリクエストを送信し、サービスが他のユーザに利用できなくなり、不公平になる可能性がある。
既存のフェアネスアプローチでは、アプリケーション間のトークン長や複数のLLM呼び出しのバリエーションは考慮されていないため、そのようなプラットフォームには適さない。
公平性の課題に対処するため,Microsoft がホストする実世界のマルチテナント LLM プラットフォームである MS CoPilot 上で,何千人ものユーザからの要求を分析した。
本分析では,既存の手法が不十分であることを確認し,多様なアプリケーションにまたがる公平なLCMアクセスを保証するシステムであるFairServeの開発を導く。
FairServeは、アプリケーション特性に敏感な要求スロットリングと重み付けされたサービスカウンタベースのスケジューリング技術を組み合わせることで、虐待的な振る舞いを抑え、公正性を確保することを提案する。
実世界のトレースに関する実験結果から,FairServeの公正性を確保するための最先端手法と比較して優れた性能を示した。
私たちは、数百万の顧客が世界中の利益を期待して、本番環境にシステムを展開する作業に積極的に取り組んでいます。
関連論文リスト
- Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - Revisiting SLO and Goodput Metrics in LLM Serving [17.777554083636716]
サービスレベル目標(SLO)と出力-LLMサービスの性能を評価するために、1秒あたりのSLOを満たす要求数を導入します。
既存のメトリクスは、ユーザーエクスペリエンスの性質を捉えていない。
本稿では,ユーザエクスペリエンスの性質を反映したSLOとグッドプットを含む,統一されたメトリクスフレームワークスムーズなグッドプットを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:05:37Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs [7.888131064071474]
現在のカスタマサービスモデルは、カスタマプロファイルと限定的に統合されている。
既存のAPI統合は、現実世界のカスタマーサービスシナリオに不可欠な精度とエラー回避の多様性を強調している。
論文 参考訳(メタデータ) (2024-03-31T07:11:48Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - Fairness in Serving Large Language Models [45.81800239353461]
本稿では,処理された入出力トークンの数を考慮したコスト関数に基づくサービスフェアネスの定義を提案する。
本稿では,新たなスケジューリングアルゴリズムであるVirtual Counter Token (VTC)を提案する。
サービススケジューラの2倍の厳しい上限を証明し、作業保守の要件に準拠します。
論文 参考訳(メタデータ) (2023-12-31T21:15:54Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - LiFT: A Scalable Framework for Measuring Fairness in ML Applications [18.54302159142362]
本稿では、大規模なMLシステムの一部として、フェアネスメトリクスのスケーラブルな計算のためのフレームワークであるLinkedIn Fairness Toolkit(LiFT)を紹介する。
フェアネスツールを実際に導入する際の課題と、LinkedInでのデプロイメント中に学んだ教訓について論じる。
論文 参考訳(メタデータ) (2020-08-14T03:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。