論文の概要: Rocks, Pebbles and Sand: Modality-aware Scheduling for Multimodal Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2603.26498v1
- Date: Fri, 27 Mar 2026 15:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.560328
- Title: Rocks, Pebbles and Sand: Modality-aware Scheduling for Multimodal Large Language Model Inference
- Title(参考訳): Rocks, Pebbles, Sand: マルチモーダルな大規模言語モデル推論のためのモダリティ対応スケジューリング
- Authors: Konstantinos Papaioannou, Thaleia Dimitra Doudali,
- Abstract要約: MLLM(Multimodal Large Language Models)は、ChatGPT、Gemini、Copilotなどのプラットフォームで、テキスト、画像、ビデオとのリッチなインタラクションを可能にする。
既存のLLMサービスシステムは、リソースを独占し、ラインのブロッキングとパフォーマンスの低下を引き起こす。
RPS-Serveは、砂が小石や岩の中を素早く流れ、飢餓を避けながら対話的な応答性を確保するためのモダリティ対応スケジューラである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) power platforms like ChatGPT, Gemini, and Copilot, enabling richer interactions with text, images, and videos. These heterogeneous workloads introduce additional inference stages, such as vision preprocessing and encoding, that inflate latency and memory demand. Existing LLM serving systems, optimized for text-only workloads, fail under multimodality: large requests (e.g., videos) monopolize resources, causing severe head-of-line blocking and performance degradation. Our key insight is that multimodal requests differ by orders of magnitude in resource demands, which we capture through a simple abstraction: videos behave like rocks, images like pebbles, and text like sand. We design RPS-Serve, a modality-aware scheduler that lets sand flow quickly through pebbles and rocks, ensuring interactive responsiveness while avoiding starvation. RPS-Serve classifies requests, prioritizes them dynamically, and applies aging to avoid starvation. Evaluation across state-of-the-art MLLMs shows that RPS-Serve reduces, on average, time-to-first-token (TTFT) by 54% overall, and by 78.5% for latency-critical requests, compared to current systems. RPS-Serve delivers LLM-like responsiveness for MLLMs, with modality-aware scheduling and by making the most efficient use of the available resources.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ChatGPT、Gemini、Copilotなどのプラットフォームで、テキスト、画像、ビデオとのリッチなインタラクションを可能にする。
これらの異種ワークロードは、視覚前処理やエンコーディングなどの追加の推論ステージを導入し、レイテンシとメモリ需要を増大させる。
既存のLLMサービスシステムは、テキストのみのワークロードに最適化されており、大きなリクエスト(例:ビデオ)がリソースを独占し、ラインのブロッキングとパフォーマンスの低下を引き起こしている。
ビデオは岩のように振る舞い、小石のような画像、砂のようなテキストのように振る舞う。
RPS-Serveは、砂が小石や岩の中を素早く流れ、飢餓を避けながら対話的な応答性を確保するためのモダリティ対応スケジューラである。
RPS-Serveはリクエストを分類し、動的に優先順位付けし、飢餓を避けるために老化を適用する。
最先端のMLLMによる評価では、RTS-Serveは、現在のシステムと比較して、平均してTTFT(time-to-first-token)を54%削減し、レイテンシクリティカルな要求に対して78.5%削減している。
RPS-ServeはMLLMに対してLLMのような応答性を提供し、モダリティを考慮したスケジューリングを行い、利用可能なリソースを最大限に活用する。
関連論文リスト
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。
我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文 参考訳(メタデータ) (2025-04-24T05:55:21Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。