論文の概要: CARROT: A Cost Aware Rate Optimal Router
- arxiv url: http://arxiv.org/abs/2502.03261v1
- Date: Wed, 05 Feb 2025 15:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:06.285577
- Title: CARROT: A Cost Aware Rate Optimal Router
- Title(参考訳): CARROT: 費用対効果を考慮した最適ルータ
- Authors: Seamus Somerstep, Felipe Maia Polo, Allysson Flavio Melo de Oliveira, Prattyush Mangal, Mírian Silva, Onkar Bhardwaj, Mikhail Yurochkin, Subha Maity,
- Abstract要約: 本稿では,コストAware Rate Optimal rouTerのCARROTを紹介し,パフォーマンスとコストのトレードオフに基づいてモデルを選択する。
その単純さはCARROTの計算効率を向上させるが、我々の理論解析はルーティング性能の最小速度最適性を示す。
いくつかの代替ルータに対してCARROTの性能を実証的に検証する。
- 参考スコア(独自算出の注目度): 22.786863130994217
- License:
- Abstract: With the rapid growth in the number of Large Language Models (LLMs), there has been a recent interest in LLM routing, or directing queries to the cheapest LLM that can deliver a suitable response. Following this line of work, we introduce CARROT, a Cost AwaRe Rate Optimal rouTer that can select models based on any desired trade-off between performance and cost. Given a query, CARROT selects a model based on estimates of models' cost and performance. Its simplicity lends CARROT computational efficiency, while our theoretical analysis demonstrates minimax rate-optimality in its routing performance. Alongside CARROT, we also introduce the Smart Price-aware Routing (SPROUT) dataset to facilitate routing on a wide spectrum of queries with the latest state-of-the-art LLMs. Using SPROUT and prior benchmarks such as Routerbench and open-LLM-leaderboard-v2 we empirically validate CARROT's performance against several alternative routers.
- Abstract(参考訳): LLM(Large Language Models)の数が急速に増加し、近年、LLMルーティングや、適切なレスポンスを提供できる最も安価なLLMへのクエリの転送への関心が高まっている。
この一連の作業に続いて、パフォーマンスとコストの間の任意のトレードオフに基づいてモデルを選択することができるコストAware Rate Optimal rouTerであるCARROTを紹介します。
クエリが与えられた場合、CARROTはモデルのコストと性能の見積に基づいてモデルを選択する。
その単純さはCARROTの計算効率を向上させる一方、我々の理論解析はルーティング性能の最小速度最適性を示す。
CARROTと並行して、スマートプライス対応ルーティング(SPROUT)データセットを導入し、最新の最先端LLMによる幅広いクエリのルーティングを容易にする。
SPROUTとRouterbenchやopen-LLM- Leaderboard-v2のような以前のベンチマークを使用して、CARROTの性能をいくつかの代替ルータに対して実証的に検証する。
関連論文リスト
- TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。
様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。
クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文 参考訳(メタデータ) (2024-08-22T11:57:07Z) - Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach [26.02167477129771]
Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。
RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。
本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
論文 参考訳(メタデータ) (2024-07-23T20:51:52Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Routoo: Learning to Route to Large Language Models Effectively [6.322844087292882]
Routooは、性能、コスト、効率に基づいた特定のプロンプトに対してLLMの選択を最適化するために設計されたアーキテクチャである。
Routtooはパフォーマンス予測とコスト認識セレクタという2つの重要なコンポーネントで構成されている。
その結果,RoutooはMixtral 8x7bモデルの性能と一致し,推論コストを3分の1削減できることがわかった。
論文 参考訳(メタデータ) (2024-01-25T06:45:32Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。