論文の概要: RouteNLP: Closed-Loop LLM Routing with Conformal Cascading and Distillation Co-Optimization
- arxiv url: http://arxiv.org/abs/2604.23577v1
- Date: Sun, 26 Apr 2026 07:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.443172
- Title: RouteNLP: Closed-Loop LLM Routing with Conformal Cascading and Distillation Co-Optimization
- Title(参考訳): RouteNLP: Conformal Cascading and Distillation Co-Optimization を用いた閉ループLCMルーティング
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: RouteNLPはクローズドループフレームワークで、タイアップされたモデルポートフォリオにクエリをルーティングし、タスク毎の品質制約を満たすとともに、コストを最小限に抑える。
企業顧客サービス部門の8週間のパイロットデプロイメント処理で、RuteNLPは推論コストを58%削減し、91%の応答受け入れを維持し、p99レイテンシを1,847msから387msに削減した。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving diverse NLP workloads with large language models is costly: at one enterprise partner, inference costs exceeded $200K/month despite over 70% of queries being routine tasks well within the capability of smaller models. We present RouteNLP, a closed-loop framework that routes queries across a tiered model portfolio to minimize cost while satisfying per-task quality constraints. The framework integrates three components: a difficulty-aware router with shared task-conditioned representations trained on preference data and quality signals; confidence-calibrated cascading that uses conformal prediction for distribution-free threshold initialization; and a distillation-routing co-optimization loop that clusters escalation failures, applies targeted knowledge distillation to cheaper models, and automatically retrains the router, yielding over twice the cost improvement of untargeted distillation. In an 8-week pilot deployment processing ~5K queries/day at an enterprise customer-service division, RouteNLP reduced inference costs by 58% while maintaining 91% response acceptance and reducing p99 latency from 1,847 ms to 387 ms. On a six-task benchmark spanning finance, customer service, and legal domains, the framework achieves 40-85% cost reduction while retaining 96-100% quality on structured tasks and 96-98% on generation tasks, with human evaluation confirming that 74.5% of routed generation outputs match or exceed frontier-model quality.
- Abstract(参考訳): 大規模な言語モデルで多様なNLPワークロードを実行するには、コストがかかる — ある企業パートナでは、より小さなモデルの能力において、クエリの70%以上がルーチンタスクであるにも関わらず、推論コストが月2Kを超える。
RouteNLPはクローズドループフレームワークで、クエリを階層化されたモデルポートフォリオにルーティングし、タスクごとの品質制約を満たすことなく、コストを最小限に抑える。
このフレームワークは、3つのコンポーネントを統合する: 優先データと品質信号に基づいて訓練されたタスク条件の共有表現を持つ困難対応ルータ、分布自由しきい値初期化の共形予測を用いた信頼性校正カスケード、エスカレーション障害をクラスタ化し、目標とする知識の蒸留を安価なモデルに適用し、ルータを自動的に再訓練し、未ターゲット蒸留の2倍以上のコスト改善をもたらす蒸留ルータ。
企業顧客サービス部門の8週間のパイロットデプロイメント処理で、RouteNLPは、91%の応答受け入れを維持しながら推論コストを58%削減し、p99レイテンシを1,847msから387msに削減した。財務、顧客サービス、法律ドメインにまたがる6タスクベンチマークでは、構造化タスクの96~100%の品質を維持し、生成タスクの96~98%を維持しながら、フレームワークは40~85%のコスト削減を実現している。
関連論文リスト
- RouteLMT: Learned Sample Routing for Hybrid LLM Translation Deployment [57.588738943463646]
大規模言語モデル(LLM)は機械翻訳(MT)において顕著な性能を発揮した
大規模に展開するのは 違法に高価です
モデル内ルータである textbfRouteLMT を提案する。
論文 参考訳(メタデータ) (2026-04-24T13:02:45Z) - ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving [0.0]
LLMは、しばしば530倍のコスト範囲にまたがるマルチモデルポートフォリオに依存している。
プロバイダは価格を見直し、モデルの品質は静かに回復し、新しいモデルはダウンタイムなしで統合する必要がある。
本稿では,費用対効果を考慮した適応ルータを提案する。
論文 参考訳(メタデータ) (2026-03-31T18:41:53Z) - Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。
本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。
2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文 参考訳(メタデータ) (2026-03-25T22:24:11Z) - Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference [0.0]
Pyramid MoA"は階層的なMixture-of-Agentsアーキテクチャで、軽量ルータを使用してクエリを動的にエスカレートする。
システムには無視可能な遅延オーバーヘッド(+0.82s)が導入されており、パフォーマンスと予算のトレードオフが調整可能であることを実証する。
論文 参考訳(メタデータ) (2026-02-23T04:47:47Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - EMAFusion: A Self-Optimizing System for Seamless LLM Selection and Integration [9.019951211182969]
EMAFusion は LLM の選択とクエリに対する信頼性の高い実行を自己最適化する新しいフレームワークである。
EMAFusionは2.6%以上(94.3%対91.7%)、平均価格より4倍安い。
組み合わせたルーティング手法は、分類基準(88.1%)と学習モデル予測基準(91.7%)に比較して94.3%の精度を提供する。
論文 参考訳(メタデータ) (2025-04-14T20:04:54Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Mobility operator service capacity sharing contract design to risk-pool
against network disruptions [3.0938904602244355]
本稿では,コスト削減とディスラプション時のサービスのレジリエンス向上のために,オペレータ間のリスクプール契約を設計するための新しいメカニズムを提案する。
本研究では,新たな2段階多商品フローモデルを構築し,異なる障害シナリオ下での連立のコスト削減について検討する。
提案手法を用いて,リスクプール契約を締結していない場合よりもネットワーク全体の性能が66%向上する可能性が示唆された4つの機関間の安定したコスト配分を同定する。
論文 参考訳(メタデータ) (2020-06-25T16:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。