論文の概要: Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity
- arxiv url: http://arxiv.org/abs/2603.12707v1
- Date: Fri, 13 Mar 2026 06:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.947327
- Title: Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity
- Title(参考訳): クロスタイアGPUヘテロジニティによる低コストマルチモーダルLCM推論
- Authors: Donglin Yu,
- Abstract要約: MLLM(Multimodal large language model)推論は、ハードウェア要求に反する2つのフェーズに分けられる。
標準変圧器KVキャッシングの下では、モダリティ境界はデバイス間転送を最小化する。
We build HeteroServe, a phase-aware runtime with modality-level partitioning and cross-tier scheduling。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language model (MLLM) inference splits into two phases with opposing hardware demands: vision encoding is compute-bound, while language generation is memory-bandwidth-bound. We show that under standard transformer KV caching, the modality boundary (between vision encoder and language model) minimizes cross-device transfer among all partition points that preserve standard stage-based execution. Partitioning here reduces transfer complexity from $O(L * s_ctx)$ bytes (GB-scale KV caches under stage-level disaggregation) to $O(N_v * d)$ bytes (MB-scale embeddings), an O(L) reduction where L is the transformer depth. The result holds across attention mechanisms (MHA/GQA), dynamic vision resolutions, and model scales, and the advantage grows as models deepen. A direct implication is that existing stage-level disaggregation systems are constrained to high-bandwidth interconnects (e.g., NVLink), whereas modality-level disaggregation enables cross-tier heterogeneous serving over commodity PCIe. A closed-form cost model shows that heterogeneous deployment is cost-optimal under phase-separable workloads (predicts 31.4% savings; observed 40.6%). We build HeteroServe, a phase-aware runtime with modality-level partitioning and cross-tier scheduling, and evaluate it on LLaVA-1.5-7B and Qwen2.5-VL against vLLM v0.3.0. On identical 4xA100 hardware, engine optimizations raise throughput by up to 54%. Under a fixed budget, a heterogeneous cluster (\$38k) improves Tokens/\$ by 37% over a homogeneous baseline (\$64k) without degrading latency.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)推論は、視覚符号化は計算量、言語生成はメモリ帯域幅の2つのフェーズに分けられる。
標準変圧器KVキャッシュの下では、モダリティ境界(ビジョンエンコーダと言語モデル)は、標準ステージベースの実行を保存するすべてのパーティションポイント間のデバイス間転送を最小化する。
ここでの分割は、転送の複雑さを$O(L * s_ctx)$バイト(ステージレベルの分散の下でのGBスケールのKVキャッシュ)から$O(N_v * d)$バイト(MBスケールの埋め込み)へ還元する。
その結果、注意機構(MHA/GQA)、ダイナミックビジョンの解像度、モデルスケールにまたがり、モデルが深まるにつれて利点が増す。
直接的な意味は、既存のステージレベルのデアグリゲーションシステムは、高帯域幅の相互接続(例えばNVLink)に制約されているのに対し、モダリティレベルのデアグリゲーションは、コモディティPCIe上の異種間サービスを可能にするということである。
クローズドフォームのコストモデルでは、異種デプロイメントがフェーズ分離可能なワークロード(31.4%の削減、40.6%の削減)の下でコスト最適であることが示されている。
We build HeteroServe, a phase-aware runtime with modality-level partitioning and cross-tier scheduling, and evaluate it on LLaVA-1.5-7B and Qwen2.5-VL against vLLM v0.3.0。
4xA100と同じハードウェアでは、エンジンの最適化によってスループットが最大54%向上する。
固定予算の下では、ヘテロジニアスクラスタ($38k)は、レイテンシを低下させることなく、同質のベースライン($64k)に対してTokens/\$を37%改善する。
関連論文リスト
- Scaling State-Space Models on Multiple GPUs with Tensor Parallelism [0.24148976266903474]
選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
論文 参考訳(メタデータ) (2026-02-24T17:47:54Z) - ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding [37.86179431483446]
自己回帰モデル(ARM)は、遅いシーケンシャル推論によって妨げられる。
本稿では,優れた性能と効率を実現するマスク付き拡散モデルReFusionを紹介する。
ReFusionは、2.33$timesの平均スピードアップを維持しながら、パフォーマンスギャップを強力なARMに橋渡しする。
論文 参考訳(メタデータ) (2025-12-15T17:41:19Z) - Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation [0.0]
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
論文 参考訳(メタデータ) (2025-09-12T15:14:19Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。
最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文 参考訳(メタデータ) (2025-04-28T15:00:03Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。