論文の概要: LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?
- arxiv url: http://arxiv.org/abs/2605.11301v1
- Date: Mon, 11 May 2026 22:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.46107
- Title: LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?
- Title(参考訳): LatentRouter: 答えを見る前に、正しいマルチモーダルモデルを選ぶことができるか?
- Authors: Xueqi Cheng, Yushun Dong,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、OCR、チャート理解、空間的推論、視覚的質問応答、コスト、レイテンシにまたがるヘテロジニアスな強度を持つ。
本稿では,MLLMルーティングを実効的マルチモーダルユーティリティ予測として定式化するルータであるLatentを提案する。
MMR-BenchとVL-Benchの実験では、Latentは固定モデル、特徴レベル、学習ルータベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 69.71754384259167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have heterogeneous strengths across OCR, chart understanding, spatial reasoning, visual question answering, cost, and latency. Effective MLLM routing therefore requires more than estimating query difficulty: a router must match the multimodal requirements of the current image-question input with the capabilities of each candidate model. We propose LatentRouter, a router that formulates MLLM routing as counterfactual multimodal utility prediction. Given an image-question query, LatentRouter extracts learned multimodal routing capsules, represents each candidate MLLM with a model capability token, and performs latent communication between these states to estimate how each model would perform if selected. A distributional outcome head predicts model-specific counterfactual quality, while a bounded capsule correction refines close decisions without allowing residual signals to dominate the prediction. The resulting utility-based policy supports performance-oriented and performance-cost routing, and handles changing candidate pools through shared per-model scoring with availability masking. Experiments on MMR-Bench and VL-RouterBench show that LatentRouter outperforms fixed-model, feature-level, and learned-router baselines. Additional analyses show that the gains are strongest on multimodal task groups where model choice depends on visual, layout-sensitive, or reasoning-oriented requirements, and that latent communication is the main contributor to the improvement. The code is available at: https://github.com/LabRAI/LatentRouter.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、OCR、チャート理解、空間的推論、視覚的質問応答、コスト、レイテンシにまたがるヘテロジニアスな強度を持つ。
ルータは、現在の画像検索入力のマルチモーダル要求と、各候補モデルの能力とを一致させなければならない。
本稿では,MLLMルーティングを実効的マルチモーダルユーティリティ予測として定式化するルータであるLatentRouterを提案する。
画像検索クエリが与えられた後、LatentRouterは学習したマルチモーダルルーティングカプセルを抽出し、各候補MLLMをモデル能力トークンで表現し、これらの状態間の遅延通信を行い、選択されたモデルがどのように動作するかを推定する。
分布結果ヘッドは、モデル固有の対物品質を予測し、有界カプセル補正は、残留信号が予測を支配することを許さず、密接な決定を洗練する。
結果として生じるユーティリティベースのポリシは、パフォーマンス指向とパフォーマンスコストのルーティングをサポートし、アベイラビリティマスキングによるモデル毎のスコアリングを通じて、候補プールの変更を処理します。
MMR-BenchとVL-RouterBenchの実験では、LatentRouterは固定モデル、特徴レベル、学習ルーターベースラインよりも優れていた。
さらなる分析では、モデル選択が視覚的、レイアウトに敏感な、あるいは推論指向の要求に依存しているマルチモーダルなタスクグループが最も多く、潜在的コミュニケーションが改善の主な要因であることを示している。
コードは、https://github.com/LabRAI/LatentRouter.comで入手できる。
関連論文リスト
- MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing [41.77627136743721]
実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。
ルーティングは、モダリティの融合、モデル間での計算コストの変動、標準化された予算対応評価の欠如などにより、簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
論文 参考訳(メタデータ) (2026-01-25T12:44:14Z) - HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning [11.03159148013318]
大規模言語モデル(LLM)は多くのタスクにまたがって最先端のパフォーマンスを提供するが、高い計算とメモリコストを課す。
特殊な軽量言語モデルのプールから推論パイプラインを動的に組み立てる階層的ルーティング手法であるHierを提案する。
論文 参考訳(メタデータ) (2025-11-13T02:12:14Z) - Lookahead Routing for Large Language Models [24.082620717301477]
Lookaheadは、潜在的なモデル出力を"予測"し、これらの予測を使ってモデル選択をガイドするルーティングフレームワークである。
7つの公開ベンチマークに対する実証的な評価は、Lookaheadが既存のルーティングベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-22T12:00:21Z) - ICL-Router: In-Context Learned Model Representations for LLM Routing [30.759446235510467]
本稿では,モデル機能を表現するために,コンテキスト内ベクトルを用いた新しいルーティング手法を提案する。
本手法は,分散処理とアウト・オブ・ディストリビューション処理の両方において,最先端のルーティング性能を実現する。
論文 参考訳(メタデータ) (2025-10-10T06:47:37Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。