論文の概要: MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing
- arxiv url: http://arxiv.org/abs/2601.17814v1
- Date: Sun, 25 Jan 2026 12:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.411769
- Title: MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing
- Title(参考訳): MMR-Bench:マルチモーダルLLMルーティングのための総合ベンチマーク
- Authors: Haoxuan Ma, Guannan Lai, Han-Jia Ye,
- Abstract要約: 実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。
ルーティングは、モダリティの融合、モデル間での計算コストの変動、標準化された予算対応評価の欠如などにより、簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
- 参考スコア(独自算出の注目度): 41.77627136743721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have advanced rapidly, yet heterogeneity in architecture, alignment strategies, and efficiency means that no single model is uniformly superior across tasks. In practical deployments, workloads span lightweight OCR to complex multimodal reasoning; using one MLLM for all queries either over-provisions compute on easy instances or sacrifices accuracy on hard ones. Query-level model selection (routing) addresses this tension, but extending routing from text-only LLMs to MLLMs is nontrivial due to modality fusion, wide variation in computational cost across models, and the absence of a standardized, budget-aware evaluation. We present MMR-Bench, a unified benchmark that isolates the multimodal routing problem and enables comparison under fixed candidate sets and cost models. MMR-Bench provides (i) a controlled environment with modality-aware inputs and variable compute budgets, (ii) a broad suite of vision-language tasks covering OCR, general VQA, and multimodal math reasoning, and (iii) strong single-model reference, oracle upper bounds, and representative routing policies. Using MMR-Bench, we show that incorporating multimodal signals improves routing quality. Empirically, these cues improve the cost-accuracy frontier and enable the routed system to exceed the strongest single model's accuracy at roughly 33% of its cost. Furthermore, policies trained on a subset of models and tasks generalize zero-shot to new datasets and text-only benchmarks without retuning, establishing MMR-Bench as a foundation for studying adaptive multimodal model selection and efficient MLLM deployment. The code will be available at: https://github.com/Hunter-Wrynn/MMR-Bench.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は急速に進歩しているが、アーキテクチャ、アライメント戦略、効率性は異質である。
実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。すべてのクエリに対して1つのMLLMを使用して、簡単なインスタンスで計算をオーバープロビジョンするか、ハードなインスタンスで精度を犠牲にする。
クエリレベルのモデル選択(ルーティング)はこの緊張に対処するが、モダリティ融合、モデル間の計算コストの変動、標準化された予算対応評価の欠如などにより、テキストのみのLLMからMLLMへのルーティングは簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
MMR-Bench
一 モダリティ対応の入力及び可変計算予算を有する制御環境
(二)OCR、一般VQA、マルチモーダル数学推論を含む視覚言語タスクの幅広いスイート
三 強力な単一モデル参照、オラクル上界、代表的なルーティングポリシー。
MMR-Benchを用いて,マルチモーダル信号の導入によりルーティング品質が向上することを示す。
実証的に、これらのキューはコスト精度のフロンティアを改善し、ルートシステムはそのコストの約33%で最強の単一モデルの精度を超えることができる。
さらに、モデルとタスクのサブセットで訓練されたポリシーは、修正せずに新しいデータセットやテキストのみのベンチマークにゼロショットを一般化し、MMR-Benchを適応的マルチモーダルモデル選択と効率的なMLLMデプロイメントの基盤として確立した。
コードは、https://github.com/Hunter-Wrynn/MMR-Bench.comから入手できる。
関連論文リスト
- Tiny-R1V: Lightweight Multimodal Unified Reasoning Model via Model Merging [34.0419616643477]
Tiny-R1Vは2段階最適化により高速な推論と高精度を実現する軽量3Bモデルである。
最初の段階では、Tiny-R1Vは、新しい強化学習法であるLength-Informed Relative Policy Optimization (LIPO)を導入した。
第2段階では、トレーニング不要なモデルマージ手法である適応モデルマージ(AMM)を提案する。
論文 参考訳(メタデータ) (2025-10-10T04:14:57Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [27.70756702796812]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。