Fugu-MT 論文翻訳(概要): CARROT: A Cost Aware Rate Optimal Router

論文の概要: CARROT: A Cost Aware Rate Optimal Router

arxiv url: http://arxiv.org/abs/2502.03261v2
Date: Mon, 19 May 2025 19:40:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.768371
Title: CARROT: A Cost Aware Rate Optimal Router
Title（参考訳）: CARROT: 費用対効果を考慮した最適ルータ
Authors: Seamus Somerstep, Felipe Maia Polo, Allysson Flavio Melo de Oliveira, Prattyush Mangal, Mírian Silva, Onkar Bhardwaj, Mikhail Yurochkin, Subha Maity,
Abstract要約: 本稿では,コストAware Rate Optimal rouTerを提案する。いくつかの代替ルータに対してCARROTの性能を実証的に検証する。
参考スコア（独自算出の注目度）: 22.786863130994217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid growth in the number of Large Language Models (LLMs), there has been a recent interest in LLM routing, or directing queries to the cheapest LLM that can deliver a suitable response. We conduct a minimax analysis of the routing problem, providing a lower bound and finding that a simple router that predicts both cost and accuracy for each question can be minimax optimal. Inspired by this, we introduce CARROT, a Cost AwaRe Rate Optimal rouTer that selects a model based on estimates of the models' cost and performance. Alongside CARROT, we also introduce the Smart Price-aware ROUTing (SPROUT) dataset to facilitate routing on a wide spectrum of queries with the latest state-of-the-art LLMs. Using SPROUT and prior benchmarks such as Routerbench and open-LLM-leaderboard-v2 we empirically validate CARROT's performance against several alternative routers.
Abstract（参考訳）: LLM(Large Language Models)の数が急速に増加し、近年、LLMルーティングや、適切なレスポンスを提供できる最も安価なLLMへのクエリの転送への関心が高まっている。ルーティング問題のミニマックス解析を行い、より低いバウンダリを提供し、各問題に対するコストと精度の両方を予測できる単純なルータが最小限最適であることを示す。そこで本研究では,コストAware Rate Optimal rouTer(CARROT)を導入し,モデルコストと性能の推定値に基づいてモデルを選択する。 CARROTと並行して、スマートプライス対応のRouting(SPROUT)データセットを導入し、最新の最先端LLMによる幅広いクエリのルーティングを容易にする。 SPROUTとRouterbenchやopen-LLM- Leaderboard-v2のような以前のベンチマークを使用して、CARROTの性能をいくつかの代替ルータに対して実証的に検証する。

関連論文リスト

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文参考訳（メタデータ） (2025-06-10T17:56:45Z)
Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale [6.911384287238722]
次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
論文参考訳（メタデータ） (2025-06-08T12:25:26Z)
RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文参考訳（メタデータ） (2025-06-04T12:16:41Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。 DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文参考訳（メタデータ） (2025-03-20T19:52:30Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs [45.93874913792025]
大規模言語モデル(LLM)のルーティングにおいて,新しいモデルレベルのスケールアップ現象を示す。この改善は、プール内の最高のシングルモデルと多くの既存の強力なLCMのパフォーマンスを上回ります。我々は、ルータ研究に適したベンチマークであるRuterEvalを紹介し、12のLLM評価に対して20,000,000以上のパフォーマンス記録を含む。
論文参考訳（メタデータ） (2025-03-08T04:07:07Z)
OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics [0.6999740786886538]
本稿では,タスクを最適大言語モデル(LLM)に動的に選択・ルーティングする,高度なモデルルーティングエンジンであるOptiRouteを紹介する。 OptiRouteは、機能的(例えば、精度、速度、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、最適なモデルとタスクを効率的に一致させる。これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。
論文参考訳（メタデータ） (2025-02-23T19:23:22Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。実時間および資源制約のあるアプリケーションに対して有望なソリューションを提供するため、CITERは高品質な生成を保ちながら推論コストを削減できることを示す。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach [26.02167477129771]
Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。 RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
論文参考訳（メタデータ） (2024-07-23T20:51:52Z)
RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文参考訳（メタデータ） (2024-06-26T18:10:22Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Routoo: Learning to Route to Large Language Models Effectively [6.322844087292882]
Routooは、性能、コスト、効率に基づいた特定のプロンプトに対してLLMの選択を最適化するために設計されたアーキテクチャである。 Routtooはパフォーマンス予測とコスト認識セレクタという2つの重要なコンポーネントで構成されている。その結果,RoutooはMixtral 8x7bモデルの性能と一致し,推論コストを3分の1削減できることがわかった。
論文参考訳（メタデータ） (2024-01-25T06:45:32Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文参考訳（メタデータ） (2023-01-30T20:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。