論文の概要: CARROT: A Cost Aware Rate Optimal Router
- arxiv url: http://arxiv.org/abs/2502.03261v1
- Date: Wed, 05 Feb 2025 15:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:06.285577
- Title: CARROT: A Cost Aware Rate Optimal Router
- Title(参考訳): CARROT: 費用対効果を考慮した最適ルータ
- Authors: Seamus Somerstep, Felipe Maia Polo, Allysson Flavio Melo de Oliveira, Prattyush Mangal, Mírian Silva, Onkar Bhardwaj, Mikhail Yurochkin, Subha Maity,
- Abstract要約: 本稿では,コストAware Rate Optimal rouTerのCARROTを紹介し,パフォーマンスとコストのトレードオフに基づいてモデルを選択する。
その単純さはCARROTの計算効率を向上させるが、我々の理論解析はルーティング性能の最小速度最適性を示す。
いくつかの代替ルータに対してCARROTの性能を実証的に検証する。
- 参考スコア(独自算出の注目度): 22.786863130994217
- License:
- Abstract: With the rapid growth in the number of Large Language Models (LLMs), there has been a recent interest in LLM routing, or directing queries to the cheapest LLM that can deliver a suitable response. Following this line of work, we introduce CARROT, a Cost AwaRe Rate Optimal rouTer that can select models based on any desired trade-off between performance and cost. Given a query, CARROT selects a model based on estimates of models' cost and performance. Its simplicity lends CARROT computational efficiency, while our theoretical analysis demonstrates minimax rate-optimality in its routing performance. Alongside CARROT, we also introduce the Smart Price-aware Routing (SPROUT) dataset to facilitate routing on a wide spectrum of queries with the latest state-of-the-art LLMs. Using SPROUT and prior benchmarks such as Routerbench and open-LLM-leaderboard-v2 we empirically validate CARROT's performance against several alternative routers.
- Abstract(参考訳): LLM(Large Language Models)の数が急速に増加し、近年、LLMルーティングや、適切なレスポンスを提供できる最も安価なLLMへのクエリの転送への関心が高まっている。
この一連の作業に続いて、パフォーマンスとコストの間の任意のトレードオフに基づいてモデルを選択することができるコストAware Rate Optimal rouTerであるCARROTを紹介します。
クエリが与えられた場合、CARROTはモデルのコストと性能の見積に基づいてモデルを選択する。
その単純さはCARROTの計算効率を向上させる一方、我々の理論解析はルーティング性能の最小速度最適性を示す。
CARROTと並行して、スマートプライス対応ルーティング(SPROUT)データセットを導入し、最新の最先端LLMによる幅広いクエリのルーティングを容易にする。
SPROUTとRouterbenchやopen-LLM- Leaderboard-v2のような以前のベンチマークを使用して、CARROTの性能をいくつかの代替ルータに対して実証的に検証する。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach [26.02167477129771]
Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。
RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。
本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
論文 参考訳(メタデータ) (2024-07-23T20:51:52Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。