論文の概要: IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory
- arxiv url: http://arxiv.org/abs/2506.01048v1
- Date: Sun, 01 Jun 2025 15:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.907106
- Title: IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory
- Title(参考訳): IRTルータ:項目応答理論による有効かつ解釈可能なマルチLLMルーティング
- Authors: Wei Song, Zhenya Huang, Cheng Cheng, Weibo Gao, Bihan Xu, GuanHao Zhao, Fei Wang, Runze Wu,
- Abstract要約: 大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて例外的な性能を示した。
強力なモデルはより良い結果をもたらすが、より小さなモデルはよりコスト効率が良いが、能力は低い。
ユーザクエリを最適なLLMに効率的にルーティングするマルチLLMルーティングフレームワークであるIRT-Merciを提案する。
- 参考スコア(独自算出の注目度): 26.39979967537193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance across a wide range of natural language tasks. However, selecting the optimal LLM to respond to a user query often necessitates a delicate balance between performance and cost. While powerful models deliver better results, they come at a high cost, whereas smaller models are more cost-effective but less capable. To address this trade-off, we propose IRT-Router, a multi-LLM routing framework that efficiently routes user queries to the most suitable LLM. Inspired by Item Response Theory (IRT), a psychological measurement methodology, IRT-Router explicitly models the relationship between LLM capabilities and user query attributes. This not only enables accurate prediction of response performance but also provides interpretable insights, such as LLM abilities and query difficulty. Additionally, we design an online query warm-up technique based on semantic similarity, further enhancing the online generalization capability of IRT-Router. Extensive experiments on 20 LLMs and 12 datasets demonstrate that IRT-Router outperforms most baseline methods in terms of effectiveness and interpretability. Its superior performance in cold-start scenarios further confirms the reliability and practicality of IRT-Router in real-world applications. Code is available at https://github.com/Mercidaiha/IRT-Router.
- Abstract(参考訳): 大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて例外的な性能を示した。
しかし、ユーザクエリに対応するのに最適なLCMを選択するには、パフォーマンスとコストの微妙なバランスを必要とすることが多い。
強力なモデルはより良い結果をもたらすが、より小さなモデルはよりコスト効率が良いが、能力は低い。
このトレードオフに対処するために、ユーザクエリを最も適切なLLMに効率的にルーティングするマルチLLMルーティングフレームワークIRT-Routerを提案する。
IRT-Routerは、アイテム応答理論(IRT)にインスパイアされ、LLM機能とユーザクエリ属性の関係を明示的にモデル化する。
これは応答性能の正確な予測を可能にするだけでなく、LLM能力やクエリ困難といった解釈可能な洞察も提供する。
さらに,意味的類似性に基づくオンラインクエリウォームアップ手法を設計し,IRT-Routerのオンライン一般化機能をさらに強化する。
20のLLMと12のデータセットに対する大規模な実験により、IRT-Routerは、有効性と解釈可能性の観点から、ほとんどのベースラインメソッドより優れていることが示された。
コールドスタートシナリオにおける優れたパフォーマンスは、現実世界のアプリケーションにおけるIRT-Routerの信頼性と実用性をさらに裏付ける。
コードはhttps://github.com/Mercidaiha/IRT-Router.comで入手できる。
関連論文リスト
- Query Routing for Retrieval-Augmented Language Models [38.05904245087491]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。
様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。
クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文 参考訳(メタデータ) (2024-08-22T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。