論文の概要: UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing
- arxiv url: http://arxiv.org/abs/2605.18796v1
- Date: Mon, 11 May 2026 07:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.334413
- Title: UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing
- Title(参考訳): UCCI: コスト最適LCMカスケードルーティングの不確実性の校正
- Authors: Varun Kotte,
- Abstract要約: 本稿では,トークンレベルのマージン不確かさをクエリごとのエラー確率にマッピングするキャリブレーションファーストルータUCCIを提案する。
UCCIは推論コストを31%削減し、エントロピー閾値、スプリットコンフォーマルルーティング、FrugalGPTスタイルの学習しきい値を上回る。
- 参考スコア(独自算出の注目度): 0.11280931253550518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM cascades and model routing promise lower inference cost by sending easy queries to a small model and escalating hard ones to a large model, but most deployed routers use uncalibrated confidence scores and require per-workload threshold tuning. We present UCCI, a calibration-first router that maps token-level margin uncertainty to a per-query error probability via isotonic regression and selects the escalation threshold by constrained cost minimization. Under three explicit assumptions, threshold policies on the calibrated score are cost-optimal, and isotonic calibration achieves O(n^{-1/3}) sample complexity for expected calibration error (ECE). On a production named entity recognition workload of 75,000 queries served by 4B and 12B instruction-tuned LLMs on H100 GPUs, UCCI cuts inference cost by 31% (95% CI: [27%, 35%]) at micro-F1 = 0.91 while reducing ECE from 0.12 to 0.03. At the same operating point, UCCI beats entropy thresholding, split-conformal routing, and a FrugalGPT-style learned threshold. All cascade results use end-to-end routing on actual model outputs and measured H100 latency, not simulated routing from global accuracies or nominal API prices.
- Abstract(参考訳): LLMカスケードとモデルルーティングは、小さなモデルに簡単なクエリを送信し、大きなモデルにハードクエリをエスカレートすることで、推論コストを低減します。
本稿では,トークンレベルのマージン不確かさをアイソトニック回帰によるクエリごとの誤差確率にマッピングし,制約付きコスト最小化によりエスカレーションしきい値を選択するキャリブレーションファーストルータUCCIを提案する。
3つの明示的な仮定の下では、キャリブレーションスコアのしきい値ポリシーはコスト最適であり、アイソトニックキャリブレーションは期待キャリブレーション誤差(ECE)に対してO(n^{-1/3})サンプル複雑性を達成する。
H100 GPU上で4Bと12Bの命令でチューニングされたLLMで提供される75,000のクエリからなる、名前付きエンティティ認識ワークロードでは、UCCIはマイクロF1 = 0.91で推論コストを31%(95% CI: [27%, 35%]削減し、ECEを0.12から0.03に削減した。
同時に、UCCIはエントロピー閾値、スプリットコンフォーマルルーティング、FrugalGPTスタイルの学習しきい値を打ち負かす。
すべてのカスケード結果は、実際のモデル出力に対するエンドツーエンドのルーティングと、グローバルアキュラシーや名目上のAPI価格からのルーティングをシミュレートせずに、測定されたH100レイテンシを使用する。
関連論文リスト
- CR^2: Cost-Aware Risk-Controlled Routing for Wireless Device-Edge LLM Inference [52.849509991178884]
大規模言語モデル(LLM)は集中型クラウドからモバイルエッジ環境に移行する。
軽量オンデバイスモデルとより強力なエッジモデルの間のクエリレベルのルーティングは、このトレードオフをナビゲートするための柔軟なメカニズムを提供する。
既存のルータは、集中クラウド設定とトークンレベルのコストの最適化のために設計されており、無線エッジデプロイメントにおける動的レイテンシとエネルギーオーバーヘッドをキャプチャできない。
論文 参考訳(メタデータ) (2026-05-12T11:50:15Z) - Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts [0.07812854697536452]
6つのベンチマークで206,000のクエリモデルペアを持つマルチ層LSMルーティングについて大規模に検討する。
報告された未解決性のかなりの部分は, 評価成果物に起因していることが示されている。
論文 参考訳(メタデータ) (2026-05-08T07:49:24Z) - Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training [0.0]
RouteLLMスタイルの教師付きベースラインは、3つの7-8Bモデルファミリと2つのデータセットで比較される。
トレーニングデータを必要としない平均トークンログ確率は、配布中の教師付きベースラインにマッチするか、超過する。
前世代の信号である検索条件自己評価は、ログプロビタビリティよりも3~10倍のレイテンシで、最大0.069 AUROCで裸の自己評価を改善する。
論文 参考訳(メタデータ) (2026-05-04T05:33:03Z) - Self-Adversarial One Step Generation via Condition Shifting [11.426065945265647]
APEXは、フローモデルから不均一に抽出された逆補正信号のフレームワークである。
私たちの0.6BモデルはFLUX-Schnell 12B(20$times$ more parameters)を1ステップ品質で上回ります。
Qwen-Image 20BのLoRAチューニングにより、APEXは6時間でNFE=1のGenEvalスコア0.89に達し、最初の50ステップの教師(0.87)を超え、15.33$times$推論スピードアップを提供する。
論文 参考訳(メタデータ) (2026-04-14T05:54:33Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors [22.16752289030178]
既存の手法は基本的なトレードオフに直面しており、単純なモデルは自動化されるが非線形回路では失敗する。
私たちは、数百万の回帰タスクで事前トレーニングされた基礎モデルから、エンジニアリングされた事前を学習された事前に置き換えることで、この障壁を突破します。
提案手法は,最先端の精度(平均MREが0.11%以下)とゼロチューニングとを一致させ,総検証コストを10倍以上削減する。
論文 参考訳(メタデータ) (2026-03-13T15:40:57Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Efficiently Deploying LLMs with Controlled Risk [0.9208007322096532]
モデル内不確実性を利用してクエリをデリゲートする,階層型連鎖とマルチレベルアプテンション(HCMA)を提案する。
我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。
論文 参考訳(メタデータ) (2024-10-03T03:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。