論文の概要: ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers
- arxiv url: http://arxiv.org/abs/2510.09852v1
- Date: Fri, 10 Oct 2025 20:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.651094
- Title: ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers
- Title(参考訳): ProxRouter: 外れ値に対するロバスト性向上のための近接重み付きLLMクエリルーティング
- Authors: Shivam Patel, Neharika Jali, Ankur Mallick, Gauri Joshi,
- Abstract要約: 大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
- 参考スコア(独自算出の注目度): 14.831117443453165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model (LLM) query routers are critical to modern AI platforms as they seek to improve efficiency by assigning inference queries to accurate, yet low-cost models. Parametric routers typically use trained neural networks for LLM selection but suffer from retraining and maintenance overheads. Nonparametric routers are training-free, instead estimating LLM accuracy and cost via similarity between encodings of the input query and training set queries. However, like their parametric counterparts, nonparametric routers struggle to generalize to outlier queries, an issue exacerbated by limited diversity in training sets which are costly to expand and difficult to keep current with ever-evolving use cases. We propose ProxRouter, which applies an exponentially tilted aggregation mechanism to balance bias and variance in nonparametric routers, improving their robustness to outliers. Experiments show ProxRouter enhances outlier routing while preserving inlier performance with minimal overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)クエリルータは、推論クエリを正確で低コストなモデルに割り当てることによって効率を向上させるため、現代のAIプラットフォームにとって重要なものだ。
パラメトリックルータは通常、LLMの選択にトレーニングされたニューラルネットワークを使用するが、再トレーニングやメンテナンスのオーバーヘッドに悩まされる。
非パラメトリックルータはトレーニング不要であり、代わりに入力クエリのエンコーディングとトレーニングセットクエリの類似性によってLCMの精度とコストを推定する。
しかし、パラメトリックなルータと同様に、非パラメトリックなルータは、外部クエリの一般化に苦慮している。
本稿では,非パラメトリックルータのバイアスと分散のバランスに指数関数的に傾いたアグリゲーション機構を適用し,そのロバスト性を向上するProxRouterを提案する。
実験によると、ProxRouterは、最小限のオーバーヘッドで不整合性能を維持しながら、アウタールーティングを強化する。
関連論文リスト
- xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Cost-Aware Contrastive Routing for LLMs [56.94921736486255]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory [26.39979967537193]
大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて例外的な性能を示した。
強力なモデルはより良い結果をもたらすが、より小さなモデルはよりコスト効率が良いが、能力は低い。
ユーザクエリを最適なLLMに効率的にルーティングするマルチLLMルーティングフレームワークであるIRT-Merciを提案する。
論文 参考訳(メタデータ) (2025-06-01T15:14:58Z) - SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context [39.19789380714972]
大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
そこで本稿では,KG-RAGのための極めてシンプルで効果的なルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T14:45:56Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。