論文の概要: EchoLM: Accelerating LLM Serving with Real-time Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2501.12689v1
- Date: Wed, 22 Jan 2025 07:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:03.503059
- Title: EchoLM: Accelerating LLM Serving with Real-time Knowledge Distillation
- Title(参考訳): EchoLM: リアルタイム知識蒸留によるLDMの高速化
- Authors: Yifan Yu, Yu Gan, Lily Tasi, Nikhil Sarda, Jiaming Shen, Yanqi Zhou, Arvind Krishnamurthy, Fan Lai, Henry M. Levy, David Culler,
- Abstract要約: 本稿では,過去の要求を例として活用して応答生成をガイドする,コンテキスト内キャッシングシステムであるEchoLMを紹介する。
EchoLMは1.4-5.9倍のスループット向上を実現し,応答品質を損なうことなく28-71%のレイテンシ削減を実現した。
- 参考スコア(独自算出の注目度): 19.23087779403426
- License:
- Abstract: Large language models (LLMs) have excelled in various applications, yet serving them at scale is challenging due to their substantial resource demands and high latency. Our real-world studies reveal that over 60% of user requests to LLMs have semantically similar counterparts, suggesting the potential for knowledge sharing among requests. However, naively caching and reusing past responses leads to large quality degradation. In this paper, we introduce EchoLM, an in-context caching system that leverages historical requests as examples to guide response generation, enabling selective offloading of requests to more efficient LLMs. However, enabling this real-time knowledge transfer leads to intricate tradeoffs between response quality, latency, and system throughput at scale. For a new request, EchoLM identifies similar, high-utility examples and efficiently prepends them to the input for better response. At scale, EchoLM adaptively routes requests to LLMs of varying capabilities, accounting for response quality and serving loads. EchoLM employs a cost-aware cache replay mechanism to improve example quality and coverage offline, maximizing cache utility and runtime efficiency. Evaluations on millions of open-source requests demonstrate that EchoLM has a throughput improvement of 1.4-5.9x while reducing latency by 28-71% without hurting response quality on average.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションで優れていますが、リソースの相当な要求と高いレイテンシのため、大規模に提供することは困難です。
我々の実世界の研究では、LLMに対するユーザリクエストの60%以上が意味的に類似していることが明らかとなり、リクエスト間の知識共有の可能性が示唆された。
しかし、因果的なキャッシングと過去のレスポンスの再利用は、大きな品質劣化をもたらす。
本稿では,過去の要求を例として活用して応答生成をガイドするコンテキスト内キャッシングシステムであるEchoLMを紹介し,より効率的なLCMへのリクエストの選択的オフロードを可能にする。
しかし、このリアルタイムな知識転送を可能にすると、応答品質、レイテンシ、大規模システムスループットのトレードオフが複雑になる。
新しいリクエストに対して、EchoLMは類似した高ユーティリティの例を特定し、それらを入力に効率よくプリペイドして応答を改善する。
スケールでは、EchoLMはリクエストを様々な能力のLCMに適応的にルーティングし、応答品質と負荷を考慮に入れます。
EchoLMは、コストを意識したキャッシュ再生機構を使用して、サンプル品質とオフラインのカバレッジを改善し、キャッシュユーティリティとランタイム効率を最大化する。
数百万のオープンソースリクエストに対する評価によると、EchoLMのスループットは1.4-5.9倍に向上し、平均的なレスポンス品質を損なうことなく、レイテンシを28-71%削減した。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。
ユーザクエリを格納することにより、セマンティックに類似した質問を効率よく識別し、大規模言語モデルに対する冗長なAPI呼び出しを伴わずに、事前生成された応答を検索できる。
実験の結果、GPT Semantic CacheはさまざまなクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%に向上した。
論文 参考訳(メタデータ) (2024-11-08T02:21:19Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework [10.716259527813522]
大規模言語モデル (LLM) は広く普及し、様々な領域で広く利用されている。
ほとんどのLDMデプロイメントは、クラウドデータセンタ内で発生し、相当な応答遅延と高いコストが発生する。
LLM要求結果をエッジに格納するためにベクトルデータベースキャッシュを活用することで、同様の要求に関連する応答遅延とコストを大幅に軽減することができる。
論文 参考訳(メタデータ) (2024-06-19T09:41:37Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。