論文の概要: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2404.16283v2
- Date: Fri, 13 Dec 2024 07:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:03.579537
- Title: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- Title(参考訳): アンデス: LLMベースのテキスト・ストリーミング・サービスにおける品質・オブ・エクスペリエンスの定義と強化
- Authors: Jiachen Liu, Jae-Won Chung, Zhiyu Wu, Fan Lai, Myungjin Lee, Mosharaf Chowdhury,
- Abstract要約: 大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
本稿では,テキストストリーミングサービスにおけるQoE(Quality-of-Experience)の概念を,各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮して導入し,定義する。
本稿では,QoE 対応 LLM サービスシステムである Andes を提案する。
- 参考スコア(独自算出の注目度): 18.856801632455678
- License:
- Abstract: Large language models (LLMs) are now at the core of conversational AI services such as real-time translation and chatbots, which provide live user interaction by incrementally streaming text to the user. However, existing LLM serving systems fail to provide good user experience because their optimization metrics are not always aligned with user experience. In this paper, we first introduce and define the notion of Quality-of-Experience (QoE) for text streaming services by considering each user's end-to-end interaction timeline. Based on this, we propose Andes, a QoE-aware LLM serving system that enhances user experience by ensuring that users receive the first token promptly and subsequent tokens at a smooth, digestible pace, even during surge periods. This is enabled by Andes's preemptive request scheduler that dynamically prioritizes requests at the token granularity based on each request's expected QoE gain and GPU resource usage. Our evaluations demonstrate that, compared to state-of-the-art LLM serving systems, Andes improves the average QoE by up to $4.7\times$ given the same GPU resource, or saves up to 61% GPU resources while maintaining the same high QoE.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
しかし、既存のLLMサービスシステムは、最適化メトリクスが必ずしもユーザーエクスペリエンスと一致しているとは限らないため、優れたユーザーエクスペリエンスを提供できない。
本稿では、まず、各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮し、テキストストリーミングサービスのQuality-of-Experience(QoE)の概念を紹介し、定義する。
そこで本研究では,QoE 対応 LLM サービスシステムである Andes を提案する。
これは、各リクエストの期待するQoEゲインとGPUリソース使用量に基づいてトークンの粒度でリクエストを動的に優先順位付けする、Andes氏のプリエンプティブリクエストスケジューラによって実現されている。
我々の評価では、最先端のLLMサービスシステムと比較して、Andesは、同じGPUリソースを与えられた場合の平均QoEを最大4.7\times$で改善し、同じ高いQoEを維持しながら最大61%のGPUリソースを節約している。
関連論文リスト
- Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Distributed Mixture-of-Agents for Edge Inference with Large Language Models [31.285983939625098]
大規模言語モデル(LLM)の性能向上手法として,Mixture-of-Agents (MoA) が最近提案されている。
このようなMoAアーキテクチャを,LLMが個々のエッジデバイスで動作する分散環境で検討する。
実験を通じて、分散MoAの実装にオープンソースのLLMを活用し、特定のMoA構成が他と比較して高品質な応答を生成することを示す。
論文 参考訳(メタデータ) (2024-12-30T18:59:06Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Large Language Model Aided QoS Prediction for Service Recommendation [7.544690825814887]
大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する,大規模言語モデル支援予測(llmQoS)モデルを提案する。
llmQoSは、予測問題に固有のデータスポーシティ問題を克服し、同等のベースラインモデルを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-08-05T03:54:52Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。