論文の概要: ECVL-ROUTER: Scenario-Aware Routing for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.27256v1
- Date: Fri, 31 Oct 2025 07:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.027234
- Title: ECVL-ROUTER: Scenario-Aware Routing for Vision-Language Models
- Title(参考訳): ECVL-ROUTER:視覚言語モデルのためのシナリオ対応ルーティング
- Authors: Xin Tang, Youfang Han, Fangfei Gou, Wei Zhao, Xin Meng, Yang Yu, Jinguo Zhang, Yuanchun Shi, Yuntao Wang, Tengxiang Zhang,
- Abstract要約: 視覚言語モデル(VLM)のためのシナリオ対応ルーティングフレームワークECVL-ROUTERを提案する。
提案手法では,ユーザ要求に基づいて,クエリ毎に適切なモデルを動的に選択する新たなルーティング戦略と評価指標を導入する。
結果より,提案手法はクエリの80%以上を小さなモデルにルーティングし,10%以下で解答確率を下げることができた。
- 参考スコア(独自算出の注目度): 26.059355108708374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel in diverse multimodal tasks. However, user requirements vary across scenarios, which can be categorized into fast response, high-quality output, and low energy consumption. Relying solely on large models deployed in the cloud for all queries often leads to high latency and energy cost, while small models deployed on edge devices are capable of handling simpler tasks with low latency and energy cost. To fully leverage the strengths of both large and small models, we propose ECVL-ROUTER, the first scenario-aware routing framework for VLMs. Our approach introduces a new routing strategy and evaluation metrics that dynamically select the appropriate model for each query based on user requirements, maximizing overall utility. We also construct a multimodal response-quality dataset tailored for router training and validate the approach through extensive experiments. Results show that our approach successfully routes over 80\% of queries to the small model while incurring less than 10\% drop in problem solving probability.
- Abstract(参考訳): VLM(Vision-Language Models)は多様なマルチモーダルタスクに優れる。
しかし、ユーザ要求はシナリオによって異なり、高速な応答、高品質な出力、低エネルギー消費に分類される。
すべてのクエリに対してクラウドにデプロイされた大きなモデルにのみ依存すると、レイテンシとエネルギーコストが高くなりますが、エッジデバイスにデプロイされた小さなモデルでは、レイテンシとエネルギーコストが低くて簡単なタスクを処理できます。
大規模モデルと小型モデルの両方の長所をフル活用するために,VLM用のシナリオ対応ルーティングフレームワークであるECVL-ROUTERを提案する。
提案手法では,ユーザ要求に基づいてクエリ毎に適切なモデルを動的に選択し,全体的な有用性を最大化する,新たなルーティング戦略と評価指標を導入している。
また、ルータトレーニングに適したマルチモーダル応答品質データセットを構築し、広範囲な実験を通してアプローチを検証する。
その結果,提案手法では,80 %以上のクエリを小さなモデルにルーティングすることに成功したが,10 % 未満の解解確率が得られた。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [27.70756702796812]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。