論文の概要: VL-RouterBench: A Benchmark for Vision-Language Model Routing
- arxiv url: http://arxiv.org/abs/2512.23562v1
- Date: Mon, 29 Dec 2025 16:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.567759
- Title: VL-RouterBench: A Benchmark for Vision-Language Model Routing
- Title(参考訳): VL-RouterBench:ビジョンランゲージモデルルーティングのベンチマーク
- Authors: Zhehao Huang, Baijiong Lin, Jingyuan Zhang, Jingying Wang, Yuhang Liu, Ning Lu, Tao Li, Xiaolin Huang,
- Abstract要約: マルチモデルルーティングは、エンジニアリング技術から重要なインフラへと進化してきた。
既存の作業には、視覚言語モデルを評価するための、体系的で再現可能なベンチマークが欠けている。
本稿では,VLMルーティングシステムの全体的な性能を体系的に評価するために,VL-Benchを提案する。
- 参考スコア(独自算出の注目度): 38.88730943495439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-model routing has evolved from an engineering technique into essential infrastructure, yet existing work lacks a systematic, reproducible benchmark for evaluating vision-language models (VLMs). We present VL-RouterBench to assess the overall capability of VLM routing systems systematically. The benchmark is grounded in raw inference and scoring logs from VLMs and constructs quality and cost matrices over sample-model pairs. In scale, VL-RouterBench covers 14 datasets across 3 task groups, totaling 30,540 samples, and includes 15 open-source models and 2 API models, yielding 519,180 sample-model pairs and a total input-output token volume of 34,494,977. The evaluation protocol jointly measures average accuracy, average cost, and throughput, and builds a ranking score from the harmonic mean of normalized cost and accuracy to enable comparison across router configurations and cost budgets. On this benchmark, we evaluate 10 routing methods and baselines and observe a significant routability gain, while the best current routers still show a clear gap to the ideal Oracle, indicating considerable room for improvement in router architecture through finer visual cues and modeling of textual structure. We will open-source the complete data construction and evaluation toolchain to promote comparability, reproducibility, and practical deployment in multimodal routing research.
- Abstract(参考訳): マルチモデルルーティングは、エンジニアリング技術から重要なインフラへと進化してきたが、既存の作業では、視覚言語モデル(VLM)を評価するための体系的で再現可能なベンチマークが欠如している。
本稿ではVL-RouterBenchを用いて,VLMルーティングシステム全体の性能を体系的に評価する。
ベンチマークは、VLMからの生の推測とスコアログに基づいており、サンプルモデルペアよりも品質とコストのマトリックスを構築している。
VL-RouterBenchは3つのタスクグループにまたがる14のデータセットをカバーし、合計で30,540のサンプルがあり、15のオープンソースモデルと2つのAPIモデルを含み、519,180のサンプルモデルペアと34,494,977の入力出力トークンボリュームを出力する。
評価プロトコルは、平均精度、平均コスト、スループットを共同で測定し、正規化コストと精度の調和平均からランキングスコアを構築し、ルータ構成とコスト予算の比較を可能にする。
このベンチマークでは、10のルーティング手法とベースラインを評価し、顕著なラウタビリティ向上を観察する一方、最高のルータは依然として理想的なOracleとの明確なギャップを示しており、より詳細なビジュアルキューとテキスト構造モデリングによるルータアーキテクチャの改善の余地がかなりあることを示している。
我々は、マルチモーダルルーティング研究におけるコンパラビリティ、再現性、実践的な展開を促進するために、完全なデータ構築および評価ツールチェーンをオープンソース化する。
関連論文リスト
- ECVL-ROUTER: Scenario-Aware Routing for Vision-Language Models [26.059355108708374]
視覚言語モデル(VLM)のためのシナリオ対応ルーティングフレームワークECVL-ROUTERを提案する。
提案手法では,ユーザ要求に基づいて,クエリ毎に適切なモデルを動的に選択する新たなルーティング戦略と評価指標を導入する。
結果より,提案手法はクエリの80%以上を小さなモデルにルーティングし,10%以下で解答確率を下げることができた。
論文 参考訳(メタデータ) (2025-10-31T07:46:44Z) - Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers [3.090041654375235]
我々は、k-Nearest Neighbors (kNN) アプローチが、様々なタスクにまたがる最先端の学習ルータよりも優れていることを示す。
その結果, 埋め込み空間におけるモデル性能の局所性は, 単純な非パラメトリック手法によって強いルーティング決定を実現できることがわかった。
論文 参考訳(メタデータ) (2025-05-19T01:33:41Z) - LEMUR Neural Network Dataset: Towards Seamless AutoML [35.57280723615144]
我々は、PyTorchベースのニューラルネットワークの大規模なコレクションを提供するオープンソースのデータセットとフレームワークであるLEMURを紹介する。
各モデルは統一されたテンプレートに従い、構成と結果が構造化データベースに格納され、一貫性が保証される。
LEMURはAutoMLの研究を加速し、公正なベンチマークを可能にし、大規模ニューラルネットワーク研究の障壁を減らすことを目的としている。
論文 参考訳(メタデータ) (2025-04-14T09:08:00Z) - ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。