論文の概要: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2404.16283v1
- Date: Thu, 25 Apr 2024 01:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:58:13.048661
- Title: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- Title(参考訳): アンデス: LLMベースのテキスト・ストリーミング・サービスにおける品質・オブ・エクスペリエンスの定義と強化
- Authors: Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury,
- Abstract要約: Andesは、テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムである。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$times$で改善することを示した。
- 参考スコア(独自算出の注目度): 18.856801632455678
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The advent of large language models (LLMs) has transformed text-based services, enabling capabilities ranging from real-time translation to AI-driven chatbots. However, existing serving systems primarily focus on optimizing server-side aggregate metrics like token generation throughput, ignoring individual user experience with streamed text. As a result, under high and/or bursty load, a significant number of users can receive unfavorable service quality or poor Quality-of-Experience (QoE). In this paper, we first formally define QoE of text streaming services, where text is delivered incrementally and interactively to users, by considering the end-to-end token delivery process throughout the entire interaction with the user. Thereafter, we propose Andes, a QoE-aware serving system that enhances user experience for LLM-enabled text streaming services. At its core, Andes strategically allocates contended GPU resources among multiple requests over time to optimize their QoE. Our evaluations demonstrate that, compared to the state-of-the-art LLM serving systems like vLLM, Andes improves the average QoE by up to 3.2$\times$ under high request rate, or alternatively, it attains up to 1.6$\times$ higher request rate while preserving high QoE.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、テキストベースのサービスを変革し、リアルタイム翻訳からAI駆動のチャットボットまで、さまざまな機能を提供する。
しかしながら,既存のサービスシステムは,トークン生成スループットなどのサーバ側集約メトリクスの最適化や,ストリームテキストによる個々のユーザエクスペリエンスの無視に重点を置いている。
その結果、高負荷および/またはバースト負荷下では、かなりの数のユーザが好ましくないサービス品質またはQoE(Quality-of-Experience)を受信できる。
本稿では,ユーザとのインタラクション全体を通じて,エンド・ツー・エンドのトークン配信プロセスを考慮して,テキストを段階的にインタラクティブに配信するテキストストリーミングサービスのQoEを,まず正式に定義する。
その後,LLM対応テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムであるAndesを提案する。
その中核であるAndesは、QoEを最適化するために、複数のリクエストで競合するGPUリソースを戦略的に割り当てている。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$\times$で改善し、あるいは高いQoEを維持しながら1.6$\times$高い要求率を達成することを示した。
関連論文リスト
- Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Distributed Mixture-of-Agents for Edge Inference with Large Language Models [31.285983939625098]
大規模言語モデル(LLM)の性能向上手法として,Mixture-of-Agents (MoA) が最近提案されている。
このようなMoAアーキテクチャを,LLMが個々のエッジデバイスで動作する分散環境で検討する。
実験を通じて、分散MoAの実装にオープンソースのLLMを活用し、特定のMoA構成が他と比較して高品質な応答を生成することを示す。
論文 参考訳(メタデータ) (2024-12-30T18:59:06Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Large Language Model Aided QoS Prediction for Service Recommendation [7.544690825814887]
大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する,大規模言語モデル支援予測(llmQoS)モデルを提案する。
llmQoSは、予測問題に固有のデータスポーシティ問題を克服し、同等のベースラインモデルを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-08-05T03:54:52Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。