論文の概要: DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving
- arxiv url: http://arxiv.org/abs/2411.02820v3
- Date: Thu, 19 Dec 2024 23:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:34.930343
- Title: DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving
- Title(参考訳): DroidSpeak: クロスLLM通信とマルチLLM実行のためのKVキャッシュ共有
- Authors: Yuhan Liu, Yuyang Huang, Jiayi Yao, Zhuohan Gu, Kuntai Du, Hanchen Li, Yihua Cheng, Junchen Jiang, Shan Lu, Madan Musuvathi, Esha Choukse,
- Abstract要約: DroidSpeakは、微調整言語モデル(LLM)間のコンテキスト共有を最適化するフレームワークである。
DroidSpeakのスループットは最大で3倍,プリフィル時間は2.6倍に向上する。
- 参考スコア(独自算出の注目度): 15.095408217590084
- License:
- Abstract: Large Language Models (LLMs) are increasingly employed in complex workflows, where different LLMs and fine-tuned variants collaboratively address complex tasks. However, these systems face significant inefficiencies due to redundant context processing of the shared context. We propose DroidSpeak, a framework that optimizes context sharing between fine-tuned LLMs derived from the same foundational model. DroidSpeak identifies critical layers in the KV cache and selectively recomputes them, enabling effective reuse of intermediate data while maintaining high accuracy. Our approach balances computational efficiency and task fidelity, significantly reducing inference latency and throughput bottlenecks. Experiments on diverse datasets and model pairs demonstrate that DroidSpeak achieves up to 3x higher throughputs and 2.6x faster prefill times with negligible accuracy loss compared to full recomputation.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑なワークフローにおいてますます採用され、様々なLLMや微調整の派生型が複雑なタスクを協調的に扱うようになっている。
しかし、これらのシステムは共有コンテキストの冗長なコンテキスト処理のため、重大な非効率に直面している。
同じ基礎モデルから派生した微調整LDM間のコンテキスト共有を最適化するフレームワークであるDroidSpeakを提案する。
DroidSpeakは、KVキャッシュ内の重要なレイヤを認識し、それを選択的に再計算し、高い精度を維持しながら、中間データの効果的な再利用を可能にする。
提案手法は計算効率とタスク忠実度を両立させ,推論遅延とスループットのボトルネックを著しく低減する。
多様なデータセットとモデルペアの実験により、DroidSpeakは最大で3倍のスループットと2.6倍高速なプリフィルタイムを達成でき、完全な再計算に比べて精度が低下することを示した。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。
ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-07T04:24:07Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Zero-shot Slot Filling in the Age of LLMs for Dialogue Systems [0.0]
本稿ではスロット誘導とブラックボックスの知識蒸留による自動データアノテーションの戦略を提案する。
コールセンター製品設定のための効率的なシステムアーキテクチャを導入し、市販の抽出モデルを34%の相対的なF1スコアで上回ります。
論文 参考訳(メタデータ) (2024-11-28T08:02:25Z) - Balancing Accuracy and Efficiency in Multi-Turn Intent Classification for LLM-Powered Dialog Systems in Production [6.459396785817196]
本稿では,本システムにおけるスケーラビリティ向上と遅延低減のための新しい2つのアプローチを提案する。
まず,タスクの複雑さを低減し,マルチターン対話におけるパフォーマンスを向上させるために,意図ラベルを簡略化するシンボリックチューニングを提案する。
第2に,データ拡張と擬似ラベル作成にLLMを用いるフレームワークであるC-LARAを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:48:35Z) - EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。
EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。