論文の概要: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2404.16283v1
- Date: Thu, 25 Apr 2024 01:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:58:13.048661
- Title: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- Title(参考訳): アンデス: LLMベースのテキスト・ストリーミング・サービスにおける品質・オブ・エクスペリエンスの定義と強化
- Authors: Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury,
- Abstract要約: Andesは、テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムである。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$times$で改善することを示した。
- 参考スコア(独自算出の注目度): 18.856801632455678
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The advent of large language models (LLMs) has transformed text-based services, enabling capabilities ranging from real-time translation to AI-driven chatbots. However, existing serving systems primarily focus on optimizing server-side aggregate metrics like token generation throughput, ignoring individual user experience with streamed text. As a result, under high and/or bursty load, a significant number of users can receive unfavorable service quality or poor Quality-of-Experience (QoE). In this paper, we first formally define QoE of text streaming services, where text is delivered incrementally and interactively to users, by considering the end-to-end token delivery process throughout the entire interaction with the user. Thereafter, we propose Andes, a QoE-aware serving system that enhances user experience for LLM-enabled text streaming services. At its core, Andes strategically allocates contended GPU resources among multiple requests over time to optimize their QoE. Our evaluations demonstrate that, compared to the state-of-the-art LLM serving systems like vLLM, Andes improves the average QoE by up to 3.2$\times$ under high request rate, or alternatively, it attains up to 1.6$\times$ higher request rate while preserving high QoE.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、テキストベースのサービスを変革し、リアルタイム翻訳からAI駆動のチャットボットまで、さまざまな機能を提供する。
しかしながら,既存のサービスシステムは,トークン生成スループットなどのサーバ側集約メトリクスの最適化や,ストリームテキストによる個々のユーザエクスペリエンスの無視に重点を置いている。
その結果、高負荷および/またはバースト負荷下では、かなりの数のユーザが好ましくないサービス品質またはQoE(Quality-of-Experience)を受信できる。
本稿では,ユーザとのインタラクション全体を通じて,エンド・ツー・エンドのトークン配信プロセスを考慮して,テキストを段階的にインタラクティブに配信するテキストストリーミングサービスのQoEを,まず正式に定義する。
その後,LLM対応テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムであるAndesを提案する。
その中核であるAndesは、QoEを最適化するために、複数のリクエストで競合するGPUリソースを戦略的に割り当てている。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$\times$で改善し、あるいは高いQoEを維持しながら1.6$\times$高い要求率を達成することを示した。
関連論文リスト
- LLM-based Weak Supervision Framework for Query Intent Classification in Video Search [6.519428288229856]
本稿では,大規模言語モデル(LLM)を弱監督によって活用し,大量のユーザ検索クエリを自動的にアノテートする手法を提案する。
思考の連鎖(Chain of Thought)と文脈学習(In-Context Learning)を通じてドメイン知識を組み込むことによって、我々のアプローチはラベル付きデータを活用し、リアルタイム推論に最適化された低レイテンシモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-13T15:47:50Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Large Language Model Aided QoS Prediction for Service Recommendation [7.544690825814887]
大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する,大規模言語モデル支援予測(llmQoS)モデルを提案する。
llmQoSは、予測問題に固有のデータスポーシティ問題を克服し、同等のベースラインモデルを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-08-05T03:54:52Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Attention-aware Resource Allocation and QoE Analysis for Metaverse
xURLLC Services [78.17423912423999]
サービスプロバイダ(MSP)とネットワークインフラストラクチャプロバイダ(InP)の相互作用について検討する。
メタバース利用者の主観的感情と主観的感情の両方を取り入れたメタデュイマージョン(Meta-DuImmersion)という新しい尺度を提案する。
我々は、xURLLCにおけるQoEを改善するために、注意を意識したレンダリングキャパシティ割り当て方式を開発した。
論文 参考訳(メタデータ) (2022-08-10T16:51:27Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Improved and Efficient Conversational Slot Labeling through Question
Answering [48.670822631047635]
Transformer-based Pretrained Language Model (PLM) は、自然言語理解(NLU)タスクの大部分に適合しないパフォーマンスを提供する。
本稿では,対話のためのNLUの重要なコンポーネントであるテキストスロットラベリング(SL)のモデリングと研究に焦点をあてる。
本稿では,QA調整型PLMをSLタスクに適用し,新しい最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-04-05T11:34:35Z) - ISEEQ: Information Seeking Question Generation using Dynamic
Meta-Information Retrieval and Knowledge Graphs [42.98709486732392]
本稿では,エンドユーザからの短い初期質問に基づいて,ISQ(Information Seeking Questions)を生成する新しい手法を提案する。
ISEEQは知識グラフを使用してユーザクエリを強化し、関連するコンテキストパスを取得する。
CISエージェントの開発を促進するために,ISEEQは高品質なISQを生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-13T04:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。