論文の概要: Fairness in Serving Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00588v1
- Date: Sun, 31 Dec 2023 21:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:44:31.285878
- Title: Fairness in Serving Large Language Models
- Title(参考訳): 大規模言語モデルの実現における公正性
- Authors: Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang
Zhuo, Joseph E. Gonzalez, Ion Stoica
- Abstract要約: 本稿では,処理された入出力トークンの数を考慮したコスト関数に基づくサービスフェアネスの定義を提案する。
本稿では,新たなスケジューリングアルゴリズムであるVirtual Counter Token (VTC)を提案する。
サービススケジューラの2倍の厳しい上限を証明し、作業保守の要件に準拠します。
- 参考スコア(独自算出の注目度): 47.79139320220292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-demand LLM inference services (e.g., ChatGPT and BARD) support a wide
range of requests from short chat conversations to long document reading. To
ensure that all client requests are processed fairly, most major LLM inference
services have request rate limits, to ensure that no client can dominate the
request queue. However, this rudimentary notion of fairness also results in
under-utilization of the resources and poor client experience when there is
spare capacity. While there is a rich literature on fair scheduling, serving
LLMs presents new challenges due to their unpredictable request lengths and
their unique batching characteristics on parallel accelerators. This paper
introduces the definition of LLM serving fairness based on a cost function that
accounts for the number of input and output tokens processed. To achieve
fairness in serving, we propose a novel scheduling algorithm, the Virtual Token
Counter (VTC), a fair scheduler based on the continuous batching mechanism. We
prove a 2x tight upper bound on the service difference between two backlogged
clients, adhering to the requirement of work-conserving. Through extensive
experiments, we demonstrate the superior performance of VTC in ensuring
fairness, especially in contrast to other baseline methods, which exhibit
shortcomings under various conditions.
- Abstract(参考訳): オンデマンドのllm推論サービス(chatgptやbardなど)は、短いチャット会話から長いドキュメントの読み込みまで、幅広いリクエストをサポートしている。
すべてのクライアントリクエストが公平に処理されることを保証するため、ほとんどの主要なllm推論サービスはリクエストレート制限を持ち、クライアントがリクエストキューを支配できないようにする。
しかし、この初歩的な公平性の概念は、余分なキャパシティがある場合、リソースの過小評価とクライアントエクスペリエンスの低下をもたらす。
フェアスケジューリングには豊富な文献があるが、LLMは予測不可能な要求長と並列アクセラレータ上での独自のバッチ特性のために、新たな課題を提示している。
本稿では,処理された入力および出力トークンの数を考慮に入れたコスト関数に基づいて,LLMサービスフェアネスの定義を提案する。
サービスにおける公平性を達成するために,連続バッチ機構に基づく公平なスケジューラであるVirtual Token Counter (VTC)を提案する。
2つのバックログ化されたクライアント間のサービス差に2倍の厳しい上限があることを証明します。
様々な条件下での欠点を示す他のベースライン法と対照的に, 公平性を確保するために, VTCの優れた性能を示す。
関連論文リスト
- Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in
ML Serving [11.578175527228769]
本稿では,推論を行う粒度を変化させることでスループット-レイテンシトレードオフに取り組むための代替戦略について検討する。
本稿では,機械学習モデルにおける早期出口(EE)を自動的に適用し,管理するシステムであるApparateを紹介する。
EEがもたらす時間的なオーバーヘッドと正確性に対処するために、Apparateは出口を再利用して継続的なフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-08T21:49:09Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Interpolating Item and User Fairness in Multi-Sided Recommendations [14.895597501976573]
問題(FAIR)という,新たなフェアレコメンデーションフレームワークを策定する
プラットフォームは適切なアイテム/ユーザフェアネスの定義を指定でき、支払いを希望する「公正度」を決定できる。
この新たな課題に直面して、学習行為と公正なレコメンデーションの実行を効果的にバランスさせる、FORMと呼ばれる低レベルのオンラインレコメンデーションアルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-06-12T15:00:58Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Fairer LP-based Online Allocation [13.478067250930101]
本稿では,リニアプログラム(LP)に基づくオンラインリソース割り当て問題について考察する。
内部点LPソルバを用いて不公平な資源支出を動的に検出するフェアアルゴリズムを提案する。
提案手法は最適化インスタンスの制約としてフェアネス要件を定式化せず,アルゴリズム設計の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2021-10-27T17:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。