論文の概要: IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs
- arxiv url: http://arxiv.org/abs/2509.06274v1
- Date: Mon, 08 Sep 2025 01:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.93339
- Title: IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs
- Title(参考訳): IPR: ユーザ構成品質-コストトレードオフによるインテリジェントプロンプトルーティング
- Authors: Aosong Feng, Zhichao Xu, Xian Wu, Kang Zhou, Sheng Guan, Yueyan Chen, Ninad Kulkarni, Yun Zhou, Balasubramaniam Srinivasan, Haibo Ding, Lin Lee Cheong,
- Abstract要約: Intelligent Prompt Routingフレームワークは、予測応答品質とユーザ指定許容レベルに基づいて最適なモデルを動的に選択する。
IPRは43.9%のコスト削減を実現し、クロード家の最強モデルに匹敵する品質を維持している。
IPRは主要なクラウドプラットフォームにデプロイされ、150ms以下のレイテンシでリクエストを処理する。
- 参考スコア(独自算出の注目度): 16.941643717839728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Routing incoming queries to the most cost-effective LLM while maintaining response quality poses a fundamental challenge in optimizing performance-cost trade-offs for large-scale commercial systems. We present IPR\, a quality-constrained Intelligent Prompt Routing framework that dynamically selects optimal models based on predicted response quality and user-specified tolerance levels. IPR introduces three key innovations: (1) a modular architecture with lightweight quality estimators trained on 1.5M prompts annotated with calibrated quality scores, enabling fine-grained quality prediction across model families; (2) a user-controlled routing mechanism with tolerance parameter $\tau \in [0,1]$ that provides explicit control over quality-cost trade-offs; and (3) an extensible design using frozen encoders with model-specific adapters, reducing new model integration from days to hours. To rigorously train and evaluate IPR, we curate an industrial-level dataset IPRBench\footnote{IPRBench will be released upon legal approval.}, a comprehensive benchmark containing 1.5 million examples with response quality annotations across 11 LLM candidates. Deployed on a major cloud platform, IPR achieves 43.9\% cost reduction while maintaining quality parity with the strongest model in the Claude family and processes requests with sub-150ms latency.
- Abstract(参考訳): 応答品質を維持しながら、最もコスト効率の高いLCMにクエリをルーティングすることは、大規模商用システムのパフォーマンスコストトレードオフを最適化する上で、根本的な課題となる。
我々は,予測応答品質とユーザ指定許容レベルに基づいて最適モデルを動的に選択する,品質制約のあるIntelligent Prompt RoutingフレームワークであるIPR\を提案する。
IPRは、(1)1.5Mでトレーニングされた軽量な品質推定器を備えたモジュラーアーキテクチャは、キャリブレーションされた品質スコアでアノテートし、モデルファミリ間できめ細かな品質予測を可能にする。(2)許容パラメータを持つユーザ制御ルーティング機構$\tau \in [0,1]$、(3)モデル固有のアダプタを備えたフリーズエンコーダを使用した拡張可能な設計で、数日から数時間に短縮する。
IPRを厳格に訓練し評価するために、産業レベルのデータセットである IPRBench\footnote{IPRBench を法的承認を得てリリースする。
11のLLM候補に対して、応答品質アノテーションを備えた15万のサンプルを含む包括的なベンチマークである。
主要なクラウドプラットフォーム上にデプロイされたIPRは、クロードファミリーで最強のモデルと150ms以下のレイテンシでリクエストを処理する品質を保ちながら、43.9%のコスト削減を実現している。
関連論文リスト
- ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。