論文の概要: MESS+: Energy-Optimal Inferencing in Language Model Zoos with Service Level Guarantees
- arxiv url: http://arxiv.org/abs/2411.00889v1
- Date: Thu, 31 Oct 2024 20:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:08.841312
- Title: MESS+: Energy-Optimal Inferencing in Language Model Zoos with Service Level Guarantees
- Title(参考訳): MESS+: サービスレベルの保証を備えた言語モデル動物園におけるエネルギー最適推論
- Authors: Ryan Zhang, Herbert Woisetschläger, Shiqiang Wang, Hans Arno Jacobsen,
- Abstract要約: モデル動物園からのエネルギー最適モデル選択のためのオンライン最適化アルゴリズムであるMESS+を提案する。
精度の高いSLAでは、動物園からLSMをランダムに選択するよりも、MESS+の方が2.5倍エネルギー効率が高い。
- 参考スコア(独自算出の注目度): 21.2175476090125
- License:
- Abstract: Open-weight large language model (LLM) zoos allow users to quickly integrate state-of-the-art models into systems. Despite increasing availability, selecting the most appropriate model for a given task still largely relies on public benchmark leaderboards and educated guesses. This can be unsatisfactory for both inference service providers and end users, where the providers usually prioritize cost efficiency, while the end users usually prioritize model output quality for their inference requests. In commercial settings, these two priorities are often brought together in Service Level Agreements (SLA). We present MESS+, an online stochastic optimization algorithm for energy-optimal model selection from a model zoo, which works on a per-inference-request basis. For a given SLA that requires high accuracy, we are up to 2.5x more energy efficient with MESS+ than with randomly selecting an LLM from the zoo while maintaining SLA quality constraints.
- Abstract(参考訳): オープンウェイトな大規模言語モデル(LLM)の動物園では、最先端のモデルをシステムに迅速に統合することができる。
可用性が向上したにもかかわらず、与えられたタスクに最も適したモデルを選択することは、まだ公開ベンチマークのリーダーボードと教育的な推測に大きく依存している。
通常、プロバイダがコスト効率を優先する一方で、エンドユーザは通常、推論要求に対してモデル出力品質を優先する。
商業的な設定では、これらの2つの優先順位はサービスレベル合意(SLA)にまとめられます。
本稿では,モデル動物園からのエネルギー-最適モデル選択のためのオンライン確率最適化アルゴリズムであるMESS+について述べる。
精度の高いSLAでは、SLA品質の制約を維持しつつ、動物園からLLMをランダムに選択した場合よりも、MESS+の方が2.5倍エネルギー効率が高い。
関連論文リスト
- Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
フェレットは、ランダム性を共有する最初の一階法である。
高い計算効率、通信オーバーヘッドの低減、高速収束を実現している。
論文 参考訳(メタデータ) (2024-09-10T07:28:13Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。
LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。
本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - LMaaS: Exploring Pricing Strategy of Large Model as a Service for
Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。
本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。
第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文 参考訳(メタデータ) (2024-01-05T07:19:19Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。