Fugu-MT 論文翻訳(概要): MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving

論文の概要: MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving

arxiv url: http://arxiv.org/abs/2502.01960v1
Date: Tue, 04 Feb 2025 03:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.820982
Title: MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving
Title（参考訳）: MPIC:効率的なMLLM実行のための位置非依存型マルチモーダルコンテキストキャッシュシステム
Authors: Shiju Zhao, Junhao Hu, Rongxiao Huang, Jiaqi Zheng, Guihai Chen,
Abstract要約: 本稿では,マルチモーダル情報管理におけるより効果的な手法として,位置独立キャッシングを提案する。我々は,システムレベルの課題とアルゴリズムレベルの課題に対処するため,MPICというキャッシングシステムの設計と実装を行った。
参考スコア（独自算出の注目度）: 32.56855948056532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The context caching technique is employed to accelerate the Multimodal Large Language Model (MLLM) inference by prevailing serving platforms currently. However, this approach merely reuses the Key-Value (KV) cache of the initial sequence of prompt, resulting in full KV cache recomputation even if the prefix differs slightly. This becomes particularly inefficient in the context of interleaved text and images, as well as multimodal retrieval-augmented generation. This paper proposes position-independent caching as a more effective approach for multimodal information management. We have designed and implemented a caching system, named MPIC, to address both system-level and algorithm-level challenges. MPIC stores the KV cache on local or remote disks when receiving multimodal data, and calculates and loads the KV cache in parallel during inference. To mitigate accuracy degradation, we have incorporated integrated reuse and recompute mechanisms within the system. The experimental results demonstrate that MPIC can achieve up to 54% reduction in response time compared to existing context caching systems, while maintaining negligible or no accuracy loss.
Abstract（参考訳）: マルチモーダル大規模言語モデル (MLLM) 推論を高速化するために, コンテクストキャッシュ技術が採用されている。しかし、このアプローチはプロンプトの初期シーケンスのキーバリュー(KV)キャッシュを再利用するだけで、プレフィックスがわずかに異なる場合でも完全にKVキャッシュを再計算する。これは、インターリーブされたテキストや画像のコンテキストや、マルチモーダル検索拡張生成において特に非効率になる。本稿では,マルチモーダル情報管理におけるより効果的な手法として,位置独立キャッシングを提案する。我々は,システムレベルの課題とアルゴリズムレベルの課題に対処するため,MPICというキャッシングシステムの設計と実装を行った。 MPICはマルチモーダルデータの受信時にKVキャッシュをローカルまたはリモートディスクに格納し、推論中にKVキャッシュを並列に計算してロードする。精度劣化を軽減するため,システム内の再利用機構と再計算機構を統合した。実験の結果,MPICは既存のコンテキストキャッシュシステムと比較して最大54%の応答時間削減が可能であり,無視あるいは精度の低下は生じないことがわかった。

関連論文リスト

KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference [7.894452711850396]
KVShareは、セマンティックな類似性に基づくマルチユーザキーバリュー(KV)キャッシュ共有技術である。 LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の推論効率を向上させるように設計されている。
論文参考訳（メタデータ） (2025-03-17T16:43:35Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference [5.1206021159434805]
MPCacheは、長いシーケンスの履歴トークンが下流のデコードに異なる影響を与える可能性があるという観察に基づいて構築されている。 MPCacheは、異なるLLM生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-01-12T13:18:04Z)
Efficiently serving large multimedia models using EPD Disaggregation [21.41566892925781]
本稿では,Encode-Prefill-Decode (EPD) Disaggregationを紹介した。本研究は,マルチモーダルスケールで資源効率の高い推論を可能にするために,EPDデアグリゲーションの可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-12-25T10:11:31Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文参考訳（メタデータ） (2024-06-26T07:44:24Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。