論文の概要: DroidSpeak: KV Cache Sharing for Efficient Multi-LLM Serving
- arxiv url: http://arxiv.org/abs/2411.02820v2
- Date: Fri, 13 Dec 2024 17:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:19.989481
- Title: DroidSpeak: KV Cache Sharing for Efficient Multi-LLM Serving
- Title(参考訳): DroidSpeak: 効率的なマルチLLM実行のためのKVキャッシュ共有
- Authors: Yuhan Liu, Yuyang Huang, Jiayi Yao, Zhuohan Gu, Kuntai Du, Hanchen Li, Yihua Cheng, Junchen Jiang, Shan Lu, Madan Musuvathi, Esha Choukse,
- Abstract要約: DroidSpeakは、微調整言語モデル(LLM)間のコンテキスト共有を最適化するフレームワークである。
DroidSpeakのスループットは最大で3倍,プリフィル時間は2.6倍に向上する。
- 参考スコア(独自算出の注目度): 15.095408217590084
- License:
- Abstract: Large Language Models (LLMs) are increasingly employed in complex workflows, where different LLMs and fine-tuned variants collaboratively address complex tasks. However, these systems face significant inefficiencies due to redundant context processing of the shared context. We propose DroidSpeak, a framework that optimizes context sharing between fine-tuned LLMs derived from the same foundational model. DroidSpeak identifies critical layers in the KV cache and selectively recomputes them, enabling effective reuse of intermediate data while maintaining high accuracy. Our approach balances computational efficiency and task fidelity, significantly reducing inference latency and throughput bottlenecks. Experiments on diverse datasets and model pairs demonstrate that DroidSpeak achieves up to 3x higher throughputs and 2.6x faster prefill times with negligible accuracy loss compared to full recomputation.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑なワークフローにおいてますます採用され、様々なLLMや微調整の派生型が複雑なタスクを協調的に扱うようになっている。
しかし、これらのシステムは共有コンテキストの冗長なコンテキスト処理のため、重大な非効率に直面している。
同じ基礎モデルから派生した微調整LDM間のコンテキスト共有を最適化するフレームワークであるDroidSpeakを提案する。
DroidSpeakは、KVキャッシュ内の重要なレイヤを認識し、それを選択的に再計算し、高い精度を維持しながら、中間データの効果的な再利用を可能にする。
提案手法は計算効率とタスク忠実度を両立させ,推論遅延とスループットのボトルネックを著しく低減する。
多様なデータセットとモデルペアの実験により、DroidSpeakは最大で3倍のスループットと2.6倍高速なプリフィルタイムを達成でき、完全な再計算に比べて精度が低下することを示した。
関連論文リスト
- Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。
第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。
その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。
CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文 参考訳(メタデータ) (2023-12-25T03:33:08Z) - TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with
Decentralized Natural Language Understanding Models [6.470108226184637]
マルチエージェントシステムは、ユーザ意図の自然言語理解を複雑にする。
本稿では,ユーザからの多目的発話を効率的に解析・オーケストレーションするパイプラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:39:23Z) - Communication-Efficient Federated Optimization over Semi-Decentralized
Networks [42.11743453542266]
通信効率は、大規模ネットワークにおいて最も困難なボトルネックの1つである。
本稿では,エージェント間通信とエージェント間通信の両方を行う半分散通信プロトコルの通信効率について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:37:15Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文 参考訳(メタデータ) (2022-10-22T14:46:43Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z) - Minimizing Communication while Maximizing Performance in Multi-Agent
Reinforcement Learning [5.612141846711729]
エージェント間通信は、コーディネーションを必要とするマルチエージェントタスクのパフォーマンスを著しく向上させることができる。
通信が帯域幅、電力、ネットワーク容量といったシステムの制約によって制限されるような現実世界のアプリケーションでは、送信されるメッセージの数を減らす必要がある。
性能を損なうことなく、コミュニケーションを75%削減できることを示す。
論文 参考訳(メタデータ) (2021-06-15T23:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。