論文の概要: Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines
- arxiv url: http://arxiv.org/abs/2604.16734v1
- Date: Fri, 17 Apr 2026 22:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.151586
- Title: Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines
- Title(参考訳): 現代のマルチモーダル大言語モデルパイプラインにおけるピークメモリ使用量の削減
- Authors: Junwan Kim, Hyunkyung Bae,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は近年,多様な視覚的入力から応答を理解・生成する強力な能力を示した。
これらのモデルがよりリッチな視覚表現にスケールするにつれて、推論はキーバリューキャッシュに大量の視覚トークンを格納することにますます依存している。
MLLMは構造的規則性と表現的冗長性を示し、推論を通して記憶の増大を制御できることを示す。
- 参考スコア(独自算出の注目度): 4.564896252406974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have recently demonstrated strong capabilities in understanding and generating responses from diverse visual inputs, including high-resolution images and long video sequences. As these models scale to richer visual representations, inference increasingly relies on storing large numbers of vision tokens in the key-value (KV) cache, making memory consumption a central bottleneck. Existing methods address this issue by identifying redundancy in vision tokens and compressing the cache, but such compression is typically applied only after all inputs are processed, resulting in high peak memory usage during the prefill stage. In this work, we show that MLLMs exhibit inherent structural regularities and representational redundancy that can be exploited to control memory growth throughout inference. Based on this insight, we propose a sequential input-compression mechanism that enforces a fixed memory budget by performing structure-aware key-value cache compression during the prefill process. This approach substantially reduces peak memory usage while maintaining generative performance with only minimal degradation, enabling more practical and memory-efficient multimodal inference.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年,高解像度画像や長いビデオシーケンスを含む多様な視覚入力からの応答の理解と生成の強力な能力を示した。
これらのモデルがよりリッチな視覚表現にスケールするにつれて、推論はキー値(KV)キャッシュに大量の視覚トークンを格納することに依存するようになり、メモリ消費が中心的なボトルネックとなる。
既存の方法は、視覚トークンの冗長性を識別し、キャッシュを圧縮することでこの問題に対処するが、そのような圧縮は通常、全ての入力が処理された後にのみ適用され、プリフィル段階でのピークメモリ使用量が高い。
本研究では,MLLMが構造的規則性と表現的冗長性を示すことを示す。
この知見に基づき、プリフィルプロセス中に構造対応キー値キャッシュ圧縮を行うことにより、固定メモリ予算を強制する逐次入力圧縮機構を提案する。
このアプローチは、最小限の劣化で生成性能を維持しながらピークメモリ使用量を大幅に削減し、より実用的でメモリ効率の良いマルチモーダル推論を可能にする。
関連論文リスト
- ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval [58.575695990976136]
大規模言語モデル(LLM)は複雑な推論タスクにおいて優れたパフォーマンスを示している。
LLMは、最終的な答えに到達する前に、長い中間的思考を生成する必要があることが多い。
我々は,LLMが動詞の推論思考を要約に適応的に圧縮することを可能にする新しいアプローチであるZoomRを紹介する。
論文 参考訳(メタデータ) (2026-04-13T02:00:35Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
境界キャッシュ変換器(BCT)は、従来のKVキャッシュの過剰なメモリ消費問題に対処する。
キー値ベクトル列を動的に更新することにより、BCTは限られたキャッシュ容量内で効率的な推論を実現する。
実験の結果,BCTは推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:30:00Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management [0.5899781520375794]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。
長いコンテンツを生成するための推論を提供することは、過渡状態の巨大なメモリフットプリントのために課題となる。
InfiniGenは、長文生成に適した新しいKVキャッシュ管理フレームワークである。
論文 参考訳(メタデータ) (2024-06-28T07:41:26Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。