論文の概要: LLMRank: Understanding LLM Strengths for Model Routing
- arxiv url: http://arxiv.org/abs/2510.01234v1
- Date: Tue, 23 Sep 2025 18:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.735869
- Title: LLMRank: Understanding LLM Strengths for Model Routing
- Title(参考訳): LLMRank:モデルルーティングのためのLLM強度を理解する
- Authors: Shubham Agrawal, Prasang Gupta,
- Abstract要約: 本稿では,プロンプトから抽出したリッチで可読な機能を活用するプロンプト対応ルーティングフレームワークであるLLMRankを紹介する。
遅延埋め込みのみに依存する従来のワンショットルータとは異なり、LLMRankは、RuterBenchでトレーニングされたニューラルネットワークランキングモデルを使用して、モデル毎のユーティリティを予測する。
提案手法は,最大89.2%のオラクルユーティリティを実現すると同時に,ルーティング決定を説明する解釈可能な機能属性を提供する。
- 参考スコア(独自算出の注目度): 2.166956880697874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large language models (LLMs) with diverse capabilities, latency and computational costs presents a critical deployment challenge: selecting the most suitable model for each prompt to optimize the trade-off between performance and efficiency. We introduce LLMRank, a prompt-aware routing framework that leverages rich, human-readable features extracted from prompts, including task type, reasoning patterns, complexity indicators, syntactic cues, and signals from a lightweight proxy solver. Unlike prior one-shot routers that rely solely on latent embeddings, LLMRank predicts per-model utility using a neural ranking model trained on RouterBench, comprising 36,497 prompts spanning 11 benchmarks and 11 state-of-the-art LLMs, from small efficient models to large frontier systems. Our approach achieves up to 89.2% of oracle utility, while providing interpretable feature attributions that explain routing decisions. Extensive studies demonstrate the importance of multifaceted feature extraction and the hybrid ranking objective, highlighting the potential of feature-driven routing for efficient and transparent LLM deployment.
- Abstract(参考訳): さまざまな機能,レイテンシ,計算コストを備えた大規模言語モデル(LLM)の急速な成長は,各プロンプトに最適なモデルを選択して,パフォーマンスと効率のトレードオフを最適化する,という,重要なデプロイメント課題を呈している。
本稿では,タスクタイプ,推論パターン,複雑性指標,構文的キュー,軽量プロキシソルバからの信号など,プロンプトから抽出されたリッチでヒューマン可読な機能を活用する,プロンプト対応ルーティングフレームワークであるLLMRankを紹介する。
LLMRankは、遅延埋め込みにのみ依存する以前のワンショットルータとは異なり、11のベンチマークと11の最先端LLMからなる36,497のプロンプトを含む、RouterBenchでトレーニングされたニューラルネットワークランキングモデルを使用して、モデルごとのユーティリティを予測する。
提案手法は,最大89.2%のオラクルユーティリティを実現すると同時に,ルーティング決定を説明する解釈可能な機能属性を提供する。
広汎な研究は多面的特徴抽出とハイブリッドランキングの目的の重要性を示し、効率的なLLMデプロイメントのための特徴駆動ルーティングの可能性を強調している。
関連論文リスト
- Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference [37.57624773333661]
MoMA(Mixture of Models and Agents)は、大規模言語モデル(LLM)とエージェントベースのルーティングを統合するフレームワークである。
本稿では,異なるルーティングモデル構造下での各種LLMの能力を評価するためのトレーニングデータセットを提案する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
論文 参考訳(メタデータ) (2025-09-09T10:15:42Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。