論文の概要: BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute
- arxiv url: http://arxiv.org/abs/2506.22716v1
- Date: Sat, 28 Jun 2025 01:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.528364
- Title: BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute
- Title(参考訳): BEST-Route:テスト時間最適計算を用いた適応LSMルーティング
- Authors: Dujian Ding, Ankur Mallick, Shaokun Zhang, Chi Wang, Daniel Madrigal, Mirian Del Carmen Hipolito Garcia, Menglin Xia, Laks V. S. Lakshmanan, Qingyun Wu, Victor Rühle,
- Abstract要約: BEST-Routeは、クエリの難しさと品質閾値に基づいて、モデルとサンプルに対する応答数を選択する新しいルーティングフレームワークである。
実世界のデータセットを用いた実験により,提案手法はコストを最大60%削減し,性能低下は1%以下であった。
- 参考スコア(独自算出の注目度): 25.740809143951815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are powerful tools but are often expensive to deploy at scale. LLM query routing mitigates this by dynamically assigning queries to models of varying cost and quality to obtain a desired trade-off. Prior query routing approaches generate only one response from the selected model and a single response from a small (inexpensive) model was often not good enough to beat a response from a large (expensive) model due to which they end up overusing the large model and missing out on potential cost savings. However, it is well known that for small models, generating multiple responses and selecting the best can enhance quality while remaining cheaper than a single large-model response. We leverage this idea to propose BEST-Route, a novel routing framework that chooses a model and the number of responses to sample from it based on query difficulty and the quality thresholds. Experiments on real-world datasets demonstrate that our method reduces costs by up to 60% with less than 1% performance drop.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なツールであるが、大規模にデプロイする費用がかかることが多い。
LLMクエリルーティングは、クエリを様々なコストと品質のモデルに動的に割り当てることでこれを緩和し、望ましいトレードオフを得る。
以前のクエリルーティングアプローチでは、選択されたモデルから1つのレスポンスしか生成せず、小さな(拡張性のない)モデルからの1つのレスポンスは、大きな(拡張性のある)モデルからのレスポンスを破るのに十分ではないことが多い。
しかし、小型モデルの場合、複数の応答を生成し、ベストを選択することで、単一の大モデル応答よりも安価に品質を向上させることはよく知られている。
このアイデアを利用してBEST-Routeを提案する。BEST-Routeは、クエリの難易度と品質のしきい値に基づいて、モデルとサンプルに対する応答数を選択する新しいルーティングフレームワークである。
実世界のデータセットを用いた実験により,提案手法はコストを最大60%削減し,性能低下は1%以下であった。
関連論文リスト
- Arch-Router: Aligning LLM Routing with Human Preferences [1.859931123372708]
ルーティングは、異なるモデルの使用を運用する上で不可欠な技術になっている。
本稿では、クエリをユーザ定義ドメインにマッチさせることで、モデル選択をガイドする、嗜好整合型ルーティングフレームワークを提案する。
我々のアプローチは主観評価基準を捉え、ルーティング決定をより透明で柔軟にする。
論文 参考訳(メタデータ) (2025-06-19T23:57:41Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - A Unified Approach to Routing and Cascading for LLMs [5.653106385738822]
様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。
既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。
我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。
本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
論文 参考訳(メタデータ) (2024-10-14T10:00:49Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。