Fugu-MT 論文翻訳(概要): Universal Model Routing for Efficient LLM Inference

論文の概要: Universal Model Routing for Efficient LLM Inference

arxiv url: http://arxiv.org/abs/2502.08773v1
Date: Wed, 12 Feb 2025 20:30:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:34.992299
Title: Universal Model Routing for Efficient LLM Inference
Title（参考訳）: 効率的なLLM推論のためのユニバーサルモデルルーティング
Authors: Wittawat Jitkrittum, Harikrishna Narasimhan, Ankit Singh Rawat, Jeevesh Juneja, Zifeng Wang, Chen-Yu Lee, Pradeep Shenoy, Rina Panigrahy, Aditya Krishna Menon, Sanjiv Kumar,
Abstract要約: 我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
参考スコア（独自算出の注目度）: 72.65083061619752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models' significant advances in capabilities are accompanied by significant increases in inference costs. Model routing is a simple technique for reducing inference cost, wherein one maintains a pool of candidate LLMs, and learns to route each prompt to the smallest feasible LLM. Existing works focus on learning a router for a fixed pool of LLMs. In this paper, we consider the problem of dynamic routing, where new, previously unobserved LLMs are available at test time. We propose a new approach to this problem that relies on representing each LLM as a feature vector, derived based on predictions on a set of representative prompts. Based on this, we detail two effective strategies, relying on cluster-based routing and a learned cluster map respectively. We prove that these strategies are estimates of a theoretically optimal routing rule, and provide an excess risk bound to quantify their errors. Experiments on a range of public benchmarks show the effectiveness of the proposed strategies in routing amongst more than 30 unseen LLMs.
Abstract（参考訳）: 大規模言語モデルの能力の大幅な進歩は、推論コストの大幅な増加を伴う。モデルルーティングは推論コストを削減するための単純な手法であり、候補LSMのプールを維持し、各プロンプトを最小のLCMにルーティングする方法を学ぶ。既存の作業は、LLMの固定プールのためのルータの学習に重点を置いている。本稿では,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題について考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これに基づいて、クラスタベースのルーティングと学習されたクラスタマップに依存する2つの効果的な戦略を詳述する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。様々な公開ベンチマークの実験では、30以上の未知のLSM間のルーティングにおける提案された戦略の有効性が示されている。

関連論文リスト

R2-Router: A New Paradigm for LLM Routing with Reasoning [58.929817721828194]
R2-は既存のルータに比べて4～5倍のコストで最先端性能を実現する。ルータはリアクティブセレクタから故意の推論器へと進化する。
論文参考訳（メタデータ） (2026-02-02T21:23:51Z)
LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing [44.046399484829635]
大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。 LLMルーティングのための大規模ベンチマークおよび統合フレームワークであるLLMBenchを紹介する。 21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
論文参考訳（メタデータ） (2026-01-12T05:01:15Z)
DiSRouter: Distributed Self-Routing for LLM Selections [23.38983740640377]
集中制御から分散ルーティングへ移行する新しいパラダイムであるDiS(Distributed Self-)を紹介する。 DiS では、クエリは LLM エージェントのネットワークを横切り、それぞれが自身の自己認識に基づいて他のエージェントに答えるかどうかを独立に決定する。大規模な実験により、DiSは様々なシナリオで既存のルーティング方法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-10-22T03:36:40Z)
Adaptive LLM Routing under Budget Constraints [12.432635540782874]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。本稿では,LLMルーティングを文脈的帯域幅問題として検討し,帯域幅フィードバックを用いて適応的な意思決定を可能にすることを提案する。
論文参考訳（メタデータ） (2025-08-28T18:18:19Z)
Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference [49.141930185079325]
提案する整数線形プログラム(ILP)は,期待される送信数を最小限に抑え,専門家の最適な配置を決定する。 ILPベースの配置戦略は,小型モデル(DeepSeekMoE16B)や大規模モデル(DeepSeek-R1671B)と比較してネットワークトラフィックが低いことを示す。
論文参考訳（メタデータ） (2025-08-12T07:08:48Z)
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文参考訳（メタデータ） (2025-06-10T17:56:45Z)
RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文参考訳（メタデータ） (2025-06-04T12:16:41Z)
Query Routing for Retrieval-Augmented Language Models [38.05904245087491]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文参考訳（メタデータ） (2025-05-29T03:44:56Z)
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs [44.273794030829556]
本稿では,12のLLM評価に対して20,000,000以上のパフォーマンス記録を含むルータ研究のベンチマークであるLuterEvalを紹介する。 RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
論文参考訳（メタデータ） (2025-03-08T04:07:07Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文参考訳（メタデータ） (2024-10-28T09:19:29Z)
GraphRouter: A Graph-based Router for LLM Selections [13.463815950807874]
Graphは、大規模言語モデルの文脈的および適応的な選択のためのグラフベースのアプローチである。 Graphは既存のルータを大幅に上回り、12.3%の最小パフォーマンス向上を実現している。この研究は、LLMの文脈的および適応的な選択のためのグラフベースのアプローチを実現し、現実世界のアプリケーションに対する洞察を提供する。
論文参考訳（メタデータ） (2024-10-04T18:02:48Z)
RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。 DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文参考訳（メタデータ） (2024-09-30T02:31:40Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文参考訳（メタデータ） (2024-03-18T17:59:04Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。