論文の概要: Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts
- arxiv url: http://arxiv.org/abs/2605.07395v1
- Date: Fri, 08 May 2026 07:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.902215
- Title: Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts
- Title(参考訳): マルチLLMルーティングにおける不溶性シーリング--評価アーチファクトの実証的研究
- Authors: Saloni Garg, Amit Sagtani,
- Abstract要約: 6つのベンチマークで206,000のクエリモデルペアを持つマルチ層LSMルーティングについて大規模に検討する。
報告された未解決性のかなりの部分は, 評価成果物に起因していることが示されている。
- 参考スコア(独自算出の注目度): 0.07812854697536452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient routing across multiple LLMs enables cost-quality tradeoffs by directing queries to the cheapest capable model. Prior work attributes routing headroom to an "unsolvability ceiling", queries no model in the pool can solve. We present a large-scale study of multi-tier LLM routing with 206,000 query-model pairs across six benchmarks (MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT) using the Gemma 4 and Llama 3.1 families. Evaluating with both LLM-as-a-judge and exact-match metrics, we show that a substantial portion of reported unsolvability stems from evaluation artifacts: (i) systematic judge biases favoring verbosity over correctness, (ii) truncation under fixed generation budgets, and (iii) output format mismatches. Through dual-judge validation and exact-match grounding, we reduce measured unsolvability across tasks. We introduce a decomposition framework attributing failures to these artifacts, revealing consistent patterns across domains and model families. These artifacts also distort router training signals: standard routers collapse to majority-class prediction (~79% smallest-tier optimal), confirmed via random-feature and shuffled-label controls, incurring a 13-17 percentage point opportunity cost. We provide actionable recommendations including dual-judge validation, exact-match anchoring, and cost-sensitive objectives. Our findings suggest existing routing headroom estimates are substantially inflated, underscoring the need for reliable evaluation protocols in multi-LLM systems.
- Abstract(参考訳): 複数のLSMにまたがる効率的なルーティングは、クエリを最も安価な有能なモデルに誘導することで、コスト品質のトレードオフを可能にする。
以前の作業属性では、ヘッドルームを"解決不可能な天井"にルーティングするが、プール内のモデルでは解決できない。
Gemma 4およびLlama 3.1ファミリーを用いて,MMLU,MedQA,HumanEval,MBPP,Alpaca,ShareGPTの6つのベンチマーク(MMLU,MedQA,HumanEval,MBPP,Alpaca,ShareGPT)で206,000のクエリモデルペアを用いた多層LSMルーティングを大規模に検討した。
LLM-as-a-judge と exact-match の両指標を用いて評価したところ、報告された未解決性の大部分は、評価アーチファクトに起因していることがわかった。
一 正しさよりも冗長性を好む系統的判断バイアス
二 固定世代予算による減税
(iii)出力フォーマットミスマッチ。
両ジャッジ検証と正確なマッチンググラウンド化により、タスク間で測定された未解決性を低減できる。
これらの成果物に障害をもたらす分解フレームワークを導入し、ドメインとモデルファミリ間の一貫性のあるパターンを明らかにします。
これらのアーティファクトは、ルータのトレーニング信号も歪ませる: 標準ルータは、多数派レベルの予測(約79%が最適)に崩壊し、ランダムな機能とシャッフルされたラベル制御によって確認され、13-17ポイントの機会コストが発生する。
デュアルマッジ検証、正確なマッチアンカー、コスト依存的な目標など、実行可能なレコメンデーションを提供します。
提案手法は,複数LLMシステムにおける信頼性評価プロトコルの必要性を浮き彫りにして,既存のルーティングヘッドルームの推定値がかなり膨らんでいることを示唆している。
関連論文リスト
- RouteLMT: Learned Sample Routing for Hybrid LLM Translation Deployment [57.588738943463646]
大規模言語モデル(LLM)は機械翻訳(MT)において顕著な性能を発揮した
大規模に展開するのは 違法に高価です
モデル内ルータである textbfRouteLMT を提案する。
論文 参考訳(メタデータ) (2026-04-24T13:02:45Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment [1.356919241968803]
3つの目標を一度にバランスを取らなければならない場合に、固定された微調整予算を割り当てる方法について検討する。
統一L1-L3評価インタフェース上に構築された閉ループデータ混合探索のための多目的フレームワークMOSAICを提案する。
論文 参考訳(メタデータ) (2026-03-19T09:00:47Z) - Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - ORCH: many analyses, one merge-a deterministic multi-agent orchestrator for discrete-choice reasoning with EMA-guided routing [0.6445605125467574]
ORCHは異種言語モデルを編成する離散選択推論のためのフレームワークである。
タスクの分解と回答の集約に固定されたルールを使用し、パイプラインを予測可能、再現可能、トレーニング不要にする。
MMLU、MMLU-Pro、GSM8Kの実験では、ORCHは単一モデルベースラインと多数投票アンサンブルを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-02T08:27:58Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing [15.724480880994259]
大規模言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルだが、応答の真の品質を反映することにはバイアスが伴うことが多い。
我々は、好みデータバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-09-29T21:44:00Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。