Fugu-MT 論文翻訳(概要): LLMProxy: Reducing Cost to Access Large Language Models

論文の概要: LLMProxy: Reducing Cost to Access Large Language Models

arxiv url: http://arxiv.org/abs/2410.11857v1
Date: Fri, 04 Oct 2024 15:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.947943
Title: LLMProxy: Reducing Cost to Access Large Language Models
Title（参考訳）: LLMProxy: 大規模言語モデルへのアクセスコスト削減
Authors: Noah Martin, Abdullah Bin Faisal, Hiba Eltigani, Rukhshan Haroon, Swaminathan Lamelas, Fahad Dogar,
Abstract要約: コスト削減の最適化を明示的にサポートする大規模言語モデルのプロキシを事例として挙げる。 LLM Proxyを設計し、モデル選択、コンテキスト管理、キャッシュの3つの主要な最適化をサポートする。ケーススタディでは、LLM Proxyを使用して、ユーザに豊富な機能セットを提供するWhatsAppベースのQ&Aサービスを実装しています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we make a case for a proxy for large language models which has explicit support for cost-saving optimizations. We design LLMProxy, which supports three key optimizations: model selection, context management, and caching. These optimizations present tradeoffs in terms of cost, inference time, and response quality, which applications can navigate through our high level, bidirectional interface. As a case study, we implement a WhatsApp-based Q&A service that uses LLMProxy to provide a rich set of features to the users. This service is deployed on a small scale (100+ users) leveraging the cloud; it has been operational for 15+ weeks and users have asked 1400+ questions so far. We report on the experiences of running this service as well as microbenchmark the specific benefits of the various cost-optimizations we present in this paper.
Abstract（参考訳）: 本稿では,コスト削減の最適化を明示的にサポートする大規模言語モデルのプロキシのケースを作成する。 LLMProxyを設計し、モデル選択、コンテキスト管理、キャッシュの3つの主要な最適化をサポートする。これらの最適化は、コスト、推論時間、応答品質の点でトレードオフを示します。ケーススタディでは、LLMProxyを使ってユーザに対して豊富な機能セットを提供するWhatsAppベースのQ&Aサービスを実装しています。このサービスはクラウドを利用する小さなスケール(100人以上のユーザ)でデプロイされている。本報告では,本サービスの運用経験と,本論文で紹介する各種コスト最適化の具体的なメリットについて報告する。

関連論文リスト

Abacus: A Cost-Based Optimizer for Semantic Operator Systems [12.831601498212397]
本稿では,セマンティック演算子の最適実装を探索するコストベースシステムであるAbacusを紹介する。 Abacusは、最小限の検証例と、もし可能であれば、オペレータのパフォーマンスに関する事前の信念を活用することで、オペレータのパフォーマンスを見積もる。 Abacusによって最適化されたシステムは、19.2%-39.2%の優れた品質、23.6倍の低コスト、4.2倍のレイテンシを実現している。
論文参考訳（メタデータ） (2025-05-20T17:49:46Z)
GREATERPROMPT: A Unified, Customizable, and High-Performing Open-Source Toolkit for Prompt Optimization [8.0977414944195]
GREATERPROMPTは、統一されたカスタマイズ可能なAPIの下で多様なメソッドを統合することにより、迅速な最適化を民主化する新しいフレームワークである。我々のフレームワークは、より大きなLLMに対してテキストフィードバックに基づく最適化と、より小さなモデルに対する内部勾配に基づく最適化の両方を活用することで、様々なモデルスケールに柔軟に対応できる。
論文参考訳（メタデータ） (2025-04-04T22:36:55Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach [0.10241134756773229]
本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。 Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-08-21T14:05:35Z)
PixelsDB: Serverless and NL-Aided Data Analytics with Flexible Service Levels and Prices [17.048398987952332]
PixelsDBは、ユーザが効率的にデータを探索できるオープンソースのデータ分析システムである。クエリは、さまざまなパフォーマンスサービスレベル(SLA)に対してさまざまな価格を提供するサーバレスクエリエンジンによって実行される。サーバレスパラダイム,自然言語支援インターフェース,フレキシブルSLAと価格の組み合わせによって,クラウドデータ分析システムのユーザビリティが大幅に向上することが実証された。
論文参考訳（メタデータ） (2024-05-30T07:48:43Z)
Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services [18.856801632455678]
Andesは、テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムである。我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$times$で改善することを示した。
論文参考訳（メタデータ） (2024-04-25T01:56:00Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
LMaaS: Exploring Pricing Strategy of Large Model as a Service for Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文参考訳（メタデータ） (2024-01-05T07:19:19Z)
Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文参考訳（メタデータ） (2023-10-20T15:01:55Z)
A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文参考訳（メタデータ） (2023-09-20T13:27:30Z)
Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文参考訳（メタデータ） (2023-09-05T02:16:45Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Dynamic Resource Allocation for Metaverse Applications with Deep Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文参考訳（メタデータ） (2023-02-27T00:30:01Z)
MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文参考訳（メタデータ） (2022-02-23T00:27:49Z)
Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文参考訳（メタデータ） (2021-11-01T19:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。