論文の概要: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2404.16283v2
- Date: Fri, 13 Dec 2024 07:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:48.525609
- Title: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
- Title(参考訳): アンデス: LLMベースのテキスト・ストリーミング・サービスにおける品質・オブ・エクスペリエンスの定義と強化
- Authors: Jiachen Liu, Jae-Won Chung, Zhiyu Wu, Fan Lai, Myungjin Lee, Mosharaf Chowdhury,
- Abstract要約: 大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
本稿では,テキストストリーミングサービスにおけるQoE(Quality-of-Experience)の概念を,各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮して導入し,定義する。
本稿では,QoE 対応 LLM サービスシステムである Andes を提案する。
- 参考スコア(独自算出の注目度): 18.856801632455678
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) are now at the core of conversational AI services such as real-time translation and chatbots, which provide live user interaction by incrementally streaming text to the user. However, existing LLM serving systems fail to provide good user experience because their optimization metrics are not always aligned with user experience. In this paper, we first introduce and define the notion of Quality-of-Experience (QoE) for text streaming services by considering each user's end-to-end interaction timeline. Based on this, we propose Andes, a QoE-aware LLM serving system that enhances user experience by ensuring that users receive the first token promptly and subsequent tokens at a smooth, digestible pace, even during surge periods. This is enabled by Andes's preemptive request scheduler that dynamically prioritizes requests at the token granularity based on each request's expected QoE gain and GPU resource usage. Our evaluations demonstrate that, compared to state-of-the-art LLM serving systems, Andes improves the average QoE by up to $4.7\times$ given the same GPU resource, or saves up to 61% GPU resources while maintaining the same high QoE.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
しかし、既存のLLMサービスシステムは、最適化メトリクスが必ずしもユーザーエクスペリエンスと一致しているとは限らないため、優れたユーザーエクスペリエンスを提供できない。
本稿では、まず、各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮し、テキストストリーミングサービスのQuality-of-Experience(QoE)の概念を紹介し、定義する。
そこで本研究では,QoE 対応 LLM サービスシステムである Andes を提案する。
これは、各リクエストの期待するQoEゲインとGPUリソース使用量に基づいてトークンの粒度でリクエストを動的に優先順位付けする、Andes氏のプリエンプティブリクエストスケジューラによって実現されている。
我々の評価では、最先端のLLMサービスシステムと比較して、Andesは、同じGPUリソースを与えられた場合の平均QoEを最大4.7\times$で改善し、同じ高いQoEを維持しながら最大61%のGPUリソースを節約している。
関連論文リスト
- Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs [63.10710876536337]
検証済みスクリプトの集合であるソフトウェア固有のスキルセットをキュレートするためのオフラインシミュレーションフレームワークを提案する。
本フレームワークは,1)タスク作成,トップダウン機能の利用,およびボトムアップAPIのシナジー探索という2つのコンポーネントから構成される。
Adobe Illustratorでの実験では、我々のフレームワークは自動化の成功率を大幅に改善し、レスポンス時間を短縮し、ランタイムトークンのコストを削減しています。
論文 参考訳(メタデータ) (2025-04-29T04:03:37Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - LLM-based Weak Supervision Framework for Query Intent Classification in Video Search [6.519428288229856]
本稿では,大規模言語モデル(LLM)を弱監督によって活用し,大量のユーザ検索クエリを自動的にアノテートする手法を提案する。
思考の連鎖(Chain of Thought)と文脈学習(In-Context Learning)を通じてドメイン知識を組み込むことによって、我々のアプローチはラベル付きデータを活用し、リアルタイム推論に最適化された低レイテンシモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-13T15:47:50Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Large Language Model Aided QoS Prediction for Service Recommendation [7.544690825814887]
大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する,大規模言語モデル支援予測(llmQoS)モデルを提案する。
llmQoSは、予測問題に固有のデータスポーシティ問題を克服し、同等のベースラインモデルを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-08-05T03:54:52Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Attention-aware Resource Allocation and QoE Analysis for Metaverse
xURLLC Services [78.17423912423999]
サービスプロバイダ(MSP)とネットワークインフラストラクチャプロバイダ(InP)の相互作用について検討する。
メタバース利用者の主観的感情と主観的感情の両方を取り入れたメタデュイマージョン(Meta-DuImmersion)という新しい尺度を提案する。
我々は、xURLLCにおけるQoEを改善するために、注意を意識したレンダリングキャパシティ割り当て方式を開発した。
論文 参考訳(メタデータ) (2022-08-10T16:51:27Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Improved and Efficient Conversational Slot Labeling through Question
Answering [48.670822631047635]
Transformer-based Pretrained Language Model (PLM) は、自然言語理解(NLU)タスクの大部分に適合しないパフォーマンスを提供する。
本稿では,対話のためのNLUの重要なコンポーネントであるテキストスロットラベリング(SL)のモデリングと研究に焦点をあてる。
本稿では,QA調整型PLMをSLタスクに適用し,新しい最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-04-05T11:34:35Z) - ISEEQ: Information Seeking Question Generation using Dynamic
Meta-Information Retrieval and Knowledge Graphs [42.98709486732392]
本稿では,エンドユーザからの短い初期質問に基づいて,ISQ(Information Seeking Questions)を生成する新しい手法を提案する。
ISEEQは知識グラフを使用してユーザクエリを強化し、関連するコンテキストパスを取得する。
CISエージェントの開発を促進するために,ISEEQは高品質なISQを生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-13T04:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。