Fugu-MT 論文翻訳(概要): Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

論文の概要: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

arxiv url: http://arxiv.org/abs/2404.14618v1
Date: Mon, 22 Apr 2024 23:06:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 15:50:59.367322
Title: Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing
Title（参考訳）: ハイブリッドLLM: コスト効率と品質に配慮したクエリルーティング
Authors: Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee, Victor Ruhle, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah,
Abstract要約: 大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
参考スコア（独自算出の注目度）: 53.748685766139715
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、サイズによってデプロイに高価なクラウドサーバも必要です。そこで本研究では,コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。提案手法では,予測されたクエリの難易度と要求される品質レベルに基づいて,クエリを小型ないし大規模モデルに割り当てるルータを用いる。要求される品質レベルをテスト時に動的に調整して,シナリオ要件に従ってコストと品質をシームレスに交換することが可能です。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。

関連論文リスト

BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute [25.740809143951815]
BEST-Routeは、クエリの難しさと品質閾値に基づいて、モデルとサンプルに対する応答数を選択する新しいルーティングフレームワークである。実世界のデータセットを用いた実験により,提案手法はコストを最大60%削減し,性能低下は1%以下であった。
論文参考訳（メタデータ） (2025-06-28T01:52:50Z)
Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。 Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文参考訳（メタデータ） (2025-06-09T05:33:28Z)
Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees [21.2175476090125]
オープンウェイトなLLM動物園は、多くの高品質なモデルへのアクセスを提供する。ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。本稿では,コスト-最適要求ルーティングのためのコスト-最適最適化アルゴリズムであるMESS+を紹介する。
論文参考訳（メタデータ） (2025-05-26T13:11:08Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文参考訳（メタデータ） (2024-09-15T15:12:45Z)
RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文参考訳（メタデータ） (2024-06-26T18:10:22Z)
Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文参考訳（メタデータ） (2024-06-15T14:44:43Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Routoo: Learning to Route to Large Language Models Effectively [6.322844087292882]
Routooは、性能、コスト、効率に基づいた特定のプロンプトに対してLLMの選択を最適化するために設計されたアーキテクチャである。 Routtooはパフォーマンス予測とコスト認識セレクタという2つの重要なコンポーネントで構成されている。その結果,RoutooはMixtral 8x7bモデルの性能と一致し,推論コストを3分の1削減できることがわかった。
論文参考訳（メタデータ） (2024-01-25T06:45:32Z)
A bi-objective $\epsilon$-constrained framework for quality-cost optimization in language model ensembles [1.5039745292757671]
本稿では,多種多様なオープンソースのLarge Language Models (LLM) を用いて,コスト効率を維持しつつ高い応答品質を実現するアンサンブルフレームワークを提案する。品質・コストトレードオフを表すために2目的最適化問題を定式化し, 簡単な0/1knapsack問題に還元する追加の予算制約を導入する。
論文参考訳（メタデータ） (2023-12-26T16:56:22Z)
AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文参考訳（メタデータ） (2023-10-19T17:57:39Z)
Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文参考訳（メタデータ） (2023-07-25T00:38:46Z)
Entangled Pair Resource Allocation under Uncertain Fidelity Requirements [59.83361663430336]
量子ネットワークにおいて、効果的な絡み合いルーティングは、量子ソースと量子宛先ノード間の通信を容易にする。本稿では,絡み合ったペアに対する資源配分モデルと,整合性保証を伴う絡み合ったルーティングモデルを提案する。提案モデルでは, ベースラインモデルと比較して, 総コストを少なくとも20%削減できる。
論文参考訳（メタデータ） (2023-04-10T07:16:51Z)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。 AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文参考訳（メタデータ） (2021-06-09T19:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。