論文の概要: IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs
- arxiv url: http://arxiv.org/abs/2509.06274v1
- Date: Mon, 08 Sep 2025 01:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.93339
- Title: IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs
- Title(参考訳): IPR: ユーザ構成品質-コストトレードオフによるインテリジェントプロンプトルーティング
- Authors: Aosong Feng, Zhichao Xu, Xian Wu, Kang Zhou, Sheng Guan, Yueyan Chen, Ninad Kulkarni, Yun Zhou, Balasubramaniam Srinivasan, Haibo Ding, Lin Lee Cheong,
- Abstract要約: Intelligent Prompt Routingフレームワークは、予測応答品質とユーザ指定許容レベルに基づいて最適なモデルを動的に選択する。
IPRは43.9%のコスト削減を実現し、クロード家の最強モデルに匹敵する品質を維持している。
IPRは主要なクラウドプラットフォームにデプロイされ、150ms以下のレイテンシでリクエストを処理する。
- 参考スコア(独自算出の注目度): 16.941643717839728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Routing incoming queries to the most cost-effective LLM while maintaining response quality poses a fundamental challenge in optimizing performance-cost trade-offs for large-scale commercial systems. We present IPR\, a quality-constrained Intelligent Prompt Routing framework that dynamically selects optimal models based on predicted response quality and user-specified tolerance levels. IPR introduces three key innovations: (1) a modular architecture with lightweight quality estimators trained on 1.5M prompts annotated with calibrated quality scores, enabling fine-grained quality prediction across model families; (2) a user-controlled routing mechanism with tolerance parameter $\tau \in [0,1]$ that provides explicit control over quality-cost trade-offs; and (3) an extensible design using frozen encoders with model-specific adapters, reducing new model integration from days to hours. To rigorously train and evaluate IPR, we curate an industrial-level dataset IPRBench\footnote{IPRBench will be released upon legal approval.}, a comprehensive benchmark containing 1.5 million examples with response quality annotations across 11 LLM candidates. Deployed on a major cloud platform, IPR achieves 43.9\% cost reduction while maintaining quality parity with the strongest model in the Claude family and processes requests with sub-150ms latency.
- Abstract(参考訳): 応答品質を維持しながら、最もコスト効率の高いLCMにクエリをルーティングすることは、大規模商用システムのパフォーマンスコストトレードオフを最適化する上で、根本的な課題となる。
我々は,予測応答品質とユーザ指定許容レベルに基づいて最適モデルを動的に選択する,品質制約のあるIntelligent Prompt RoutingフレームワークであるIPR\を提案する。
IPRは、(1)1.5Mでトレーニングされた軽量な品質推定器を備えたモジュラーアーキテクチャは、キャリブレーションされた品質スコアでアノテートし、モデルファミリ間できめ細かな品質予測を可能にする。(2)許容パラメータを持つユーザ制御ルーティング機構$\tau \in [0,1]$、(3)モデル固有のアダプタを備えたフリーズエンコーダを使用した拡張可能な設計で、数日から数時間に短縮する。
IPRを厳格に訓練し評価するために、産業レベルのデータセットである IPRBench\footnote{IPRBench を法的承認を得てリリースする。
11のLLM候補に対して、応答品質アノテーションを備えた15万のサンプルを含む包括的なベンチマークである。
主要なクラウドプラットフォーム上にデプロイされたIPRは、クロードファミリーで最強のモデルと150ms以下のレイテンシでリクエストを処理する品質を保ちながら、43.9%のコスト削減を実現している。
関連論文リスト
- EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference [4.254924788681319]
本稿では,分散型大規模言語モデル (LLM) 推論のためのコストアウェアな品質証明 (PoQ) フレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判定を統一評価パイプライン内で組み合わせる。
モンテカルロの5000回以上のPoQラウンドのシミュレーションでは、コスト認識報酬スキームは高品質の低コスト推論モデルに常に高い平均報酬を割り当てることを示した。
論文 参考訳(メタデータ) (2025-12-18T08:57:17Z) - MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs [17.827406818899536]
MoE-Prismは、厳格なMoEモデルをエラスティックサービスに変換するモデルシステムの共同設計である。
評価の結果,MoE-Prismprovides はベースラインの4倍以上,安定な動作点であることがわかった。
これにより、厳格な予算で最大19.9%のスループットを動的に改善したり、限られたリソースで最大10.36%のレイテンシを削減できる。
論文 参考訳(メタデータ) (2025-10-22T08:40:01Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing [15.724480880994259]
大規模言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルだが、応答の真の品質を反映することにはバイアスが伴うことが多い。
我々は、好みデータバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-09-29T21:44:00Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。