論文の概要: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing
- arxiv url: http://arxiv.org/abs/2404.14618v1
- Date: Mon, 22 Apr 2024 23:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:50:59.367322
- Title: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing
- Title(参考訳): ハイブリッドLLM: コスト効率と品質に配慮したクエリルーティング
- Authors: Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee, Victor Ruhle, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah,
- Abstract要約: 大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
- 参考スコア(独自算出の注目度): 53.748685766139715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、サイズによってデプロイに高価なクラウドサーバも必要です。
そこで本研究では,コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
提案手法では,予測されたクエリの難易度と要求される品質レベルに基づいて,クエリを小型ないし大規模モデルに割り当てるルータを用いる。
要求される品質レベルをテスト時に動的に調整して,シナリオ要件に従ってコストと品質をシームレスに交換することが可能です。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
関連論文リスト
- Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。
より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。
本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T15:12:45Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Routoo: Learning to Route to Large Language Models Effectively [6.322844087292882]
Routooは、性能、コスト、効率に基づいた特定のプロンプトに対してLLMの選択を最適化するために設計されたアーキテクチャである。
Routtooはパフォーマンス予測とコスト認識セレクタという2つの重要なコンポーネントで構成されている。
その結果,RoutooはMixtral 8x7bモデルの性能と一致し,推論コストを3分の1削減できることがわかった。
論文 参考訳(メタデータ) (2024-01-25T06:45:32Z) - A bi-objective $\epsilon$-constrained framework for quality-cost
optimization in language model ensembles [1.5039745292757671]
本稿では,多種多様なオープンソースのLarge Language Models (LLM) を用いて,コスト効率を維持しつつ高い応答品質を実現するアンサンブルフレームワークを提案する。
品質・コストトレードオフを表すために2目的最適化問題を定式化し, 簡単な0/1knapsack問題に還元する追加の予算制約を導入する。
論文 参考訳(メタデータ) (2023-12-26T16:56:22Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - Entangled Pair Resource Allocation under Uncertain Fidelity Requirements [59.83361663430336]
量子ネットワークにおいて、効果的な絡み合いルーティングは、量子ソースと量子宛先ノード間の通信を容易にする。
本稿では,絡み合ったペアに対する資源配分モデルと,整合性保証を伴う絡み合ったルーティングモデルを提案する。
提案モデルでは, ベースラインモデルと比較して, 総コストを少なくとも20%削減できる。
論文 参考訳(メタデータ) (2023-04-10T07:16:51Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。