論文の概要: Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems
- arxiv url: http://arxiv.org/abs/2602.11877v1
- Date: Thu, 12 Feb 2026 12:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.804956
- Title: Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems
- Title(参考訳): 協調LLMシステムにおけるルータの公平かつ包括的評価に向けて
- Authors: Wanxing Wu, He Zhu, Yixia Li, Lei Yang, Jiehui Zhao, Hongru Wang, Jian Yang, Benyou Wang, Bingyi Jing, Guanhua Chen,
- Abstract要約: 大規模言語モデル(LLM)は成功したが、コストとプライバシの制約により、より小さなモデルをローカルにデプロイする必要がある。
本稿では,ルータ能力,シナリオアライメント,ドメイン間ロバスト性という3次元の原理的評価フレームワークであるRuterXBenchを提案する。
ProbeDirichletは、学習可能なディリクレを介して層間隠れ状態を集約し、確率的トレーニングを行う軽量ルータである。
- 参考スコア(独自算出の注目度): 46.00150374727385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は成功したが、コストとプライバシの制約により、複雑なクエリをクラウドベースモデルにオフロードしながら、小さなモデルをローカルにデプロイする必要がある。
既存のルータ評価は非体系的であり、シナリオ固有の要件とアウト・オブ・ディストリビューションの堅牢性を見越している。
本稿では,ルータ能力,シナリオアライメント,ドメイン間ロバスト性という3次元の原理的評価フレームワークであるRuterXBenchを提案する。
出力確率や外部埋め込みに依存する以前の作業とは異なり、内部隠れ状態を使用して回答生成前のモデルの不確実性をキャプチャする。
本稿では,学習可能なディリクレ分布を確率的トレーニングで集約する軽量ルータProbeDirichletを紹介する。
マルチドメインデータに基づいてトレーニングされ、ドメイン内およびアウト・オブ・ディストリビューションのシナリオで堅牢に一般化される。
ProbeDirichletは、モデルファミリ、モデルスケール、異種タスク、エージェントワークフローに一貫したパフォーマンスで、ルータ能力と高精度シナリオの最高のベースラインよりも16.68%と18.86%の相対的な改善を実現している。
関連論文リスト
- Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Federate the Router: Learning Language Model Routers with Sparse and Decentralized Evaluations [26.24858921328445]
大規模言語モデル(LLM)は、エッジとエンタープライズクライアントによってリモートでホストされるサービスとして、ますますアクセスされてきている。
既存のルータアプローチでは、集中型クエリモデル評価データへのアクセスを前提としている。
LLMルーティングのための最初のフェデレーションフレームワークを導入し、クライアントがローカルオフラインクエリモデル評価データから共有ルーティングポリシーを学習できるようにする。
論文 参考訳(メタデータ) (2026-01-29T21:00:29Z) - CASTER: Breaking the Cost-Performance Barrier in Multi-Agent Orchestration via Context-Aware Strategy for Task Efficient Routing [25.48759875572515]
CASTER (Context-Aware Strategy for Task Efficient Routing) はグラフベースMASにおける動的モデル選択のための軽量ルータである。
CASTERは強力なモデルベースラインに比べて推論コストを最大72.4%削減する。
論文 参考訳(メタデータ) (2026-01-27T16:52:47Z) - ECVL-ROUTER: Scenario-Aware Routing for Vision-Language Models [26.059355108708374]
視覚言語モデル(VLM)のためのシナリオ対応ルーティングフレームワークECVL-ROUTERを提案する。
提案手法では,ユーザ要求に基づいて,クエリ毎に適切なモデルを動的に選択する新たなルーティング戦略と評価指標を導入する。
結果より,提案手法はクエリの80%以上を小さなモデルにルーティングし,10%以下で解答確率を下げることができた。
論文 参考訳(メタデータ) (2025-10-31T07:46:44Z) - DiSRouter: Distributed Self-Routing for LLM Selections [23.38983740640377]
集中制御から分散ルーティングへ移行する新しいパラダイムであるDiS(Distributed Self-)を紹介する。
DiS では、クエリは LLM エージェントのネットワークを横切り、それぞれが自身の自己認識に基づいて他のエージェントに答えるかどうかを独立に決定する。
大規模な実験により、DiSは様々なシナリオで既存のルーティング方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-22T03:36:40Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。