論文の概要: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing
- arxiv url: http://arxiv.org/abs/2404.14618v1
- Date: Mon, 22 Apr 2024 23:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:50:59.367322
- Title: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing
- Title(参考訳): ハイブリッドLLM: コスト効率と品質に配慮したクエリルーティング
- Authors: Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee, Victor Ruhle, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah,
- Abstract要約: 大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
- 参考スコア(独自算出の注目度): 53.748685766139715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、サイズによってデプロイに高価なクラウドサーバも必要です。
そこで本研究では,コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
提案手法では,予測されたクエリの難易度と要求される品質レベルに基づいて,クエリを小型ないし大規模モデルに割り当てるルータを用いる。
要求される品質レベルをテスト時に動的に調整して,シナリオ要件に従ってコストと品質をシームレスに交換することが可能です。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
関連論文リスト
- Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。
トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文 参考訳(メタデータ) (2024-01-29T16:36:31Z) - A bi-objective $\epsilon$-constrained framework for quality-cost
optimization in language model ensembles [1.5039745292757671]
本稿では,多種多様なオープンソースのLarge Language Models (LLM) を用いて,コスト効率を維持しつつ高い応答品質を実現するアンサンブルフレームワークを提案する。
品質・コストトレードオフを表すために2目的最適化問題を定式化し, 簡単な0/1knapsack問題に還元する追加の予算制約を導入する。
論文 参考訳(メタデータ) (2023-12-26T16:56:22Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An
Experimental Study [63.33663927442259]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Entangled Pair Resource Allocation under Uncertain Fidelity Requirements [59.83361663430336]
量子ネットワークにおいて、効果的な絡み合いルーティングは、量子ソースと量子宛先ノード間の通信を容易にする。
本稿では,絡み合ったペアに対する資源配分モデルと,整合性保証を伴う絡み合ったルーティングモデルを提案する。
提案モデルでは, ベースラインモデルと比較して, 総コストを少なくとも20%削減できる。
論文 参考訳(メタデータ) (2023-04-10T07:16:51Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for
Skill Assessments [11.355397923795488]
マルチチョイス質問(MCQ)は、仮想教育と求職の時代に最も有望なスキル評価の道を提供する。
自然言語処理の最近の進歩は、多くの複雑な質問生成手法を生み出している。
AGenT Zeroは、他のトレーニング済みメソッドよりも、流布やセマンティックな類似性が優れている。
論文 参考訳(メタデータ) (2020-11-25T04:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。