論文の概要: INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling
- arxiv url: http://arxiv.org/abs/2505.16303v1
- Date: Thu, 22 May 2025 06:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.100095
- Title: INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling
- Title(参考訳): InferenceDyNAMICS:構造化能力と知識プロファイリングによるLLM間の効率的なルーティング
- Authors: Haochen Shi, Tianshi Zheng, Weiqi Wang, Baixuan Xu, Chunyang Li, Chunkit Chan, Tao Fan, Yangqiu Song, Qiang Yang,
- Abstract要約: InferenceDynamicsは、モデルの能力と知識をモデル化することによって、柔軟でスケーラブルな多次元ルーティングフレームワークである。
包括的データセットであるRouteMixで運用し、グループレベルのルーティングの有効性と一般化性を実証する。
- 参考スコア(独自算出の注目度): 44.309917620936474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) routing is a pivotal technique for navigating a diverse landscape of LLMs, aiming to select the best-performing LLMs tailored to the domains of user queries, while managing computational resources. However, current routing approaches often face limitations in scalability when dealing with a large pool of specialized LLMs, or in their adaptability to extending model scope and evolving capability domains. To overcome those challenges, we propose InferenceDynamics, a flexible and scalable multi-dimensional routing framework by modeling the capability and knowledge of models. We operate it on our comprehensive dataset RouteMix, and demonstrate its effectiveness and generalizability in group-level routing using modern benchmarks including MMLU-Pro, GPQA, BigGenBench, and LiveBench, showcasing its ability to identify and leverage top-performing models for given tasks, leading to superior outcomes with efficient resource utilization. The broader adoption of Inference Dynamics can empower users to harness the full specialized potential of the LLM ecosystem, and our code will be made publicly available to encourage further research.
- Abstract(参考訳): 大規模言語モデル(LLM)ルーティングは、計算資源を管理しながら、ユーザクエリのドメインに合わせて最適な性能のLLMを選択することを目的として、多様なLLMのランドスケープをナビゲートするための重要なテクニックである。
しかしながら、現在のルーティングアプローチは、多くの特殊なLLMを扱う場合や、モデルスコープの拡張や機能ドメインの進化に適応する際のスケーラビリティの制限に直面していることが多い。
これらの課題を克服するために、モデルの能力と知識をモデル化し、柔軟でスケーラブルな多次元ルーティングフレームワークであるInferenceDynamicsを提案する。
MMLU-Pro,GPQA,BigGenBench,LiveBenchといった最新のベンチマークを用いてグループレベルのルーティングの有効性と一般化性を実証し,与えられたタスクに対して最高のパフォーマンスモデルを特定し,活用する能力を示した。
より広範な推論ダイナミクスの採用により、ユーザはLLMエコシステムのすべての専門的な潜在能力を活用できるようになります。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - Large Language Models for Knowledge-Free Network Management: Feasibility Study and Opportunities [36.70339455624253]
本稿では,大規模言語モデル(LLM)と呼ばれる基礎モデルの力による,知識のない新しいネットワーク管理パラダイムについて述べる。
LLMは、最小限のシステム情報を含む入力プロンプトから重要なコンテキストを理解することができ、完全に新しいタスクであっても顕著な推論性能を提供する。
計算結果は,知識のないLLMが既存の知識ベース最適化アルゴリズムに匹敵する性能を達成できることを検証した。
論文 参考訳(メタデータ) (2024-10-06T07:42:23Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - NetLLM: Adapting Large Language Models for Networking [36.61572542761661]
我々は,ネットワーク問題を解決するために低努力でLLMの強力な能力を活用するためのコヒーレントな設計を提供する最初のフレームワークであるNetLLMを紹介する。
具体的には、NetLLMはLLMにネットワーク上のマルチモーダルデータを効果的に処理し、タスク固有の回答を効率的に生成する権限を与える。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。