論文の概要: LLMProxy: Reducing Cost to Access Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11857v1
- Date: Fri, 04 Oct 2024 15:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:35.947943
- Title: LLMProxy: Reducing Cost to Access Large Language Models
- Title(参考訳): LLMProxy: 大規模言語モデルへのアクセスコスト削減
- Authors: Noah Martin, Abdullah Bin Faisal, Hiba Eltigani, Rukhshan Haroon, Swaminathan Lamelas, Fahad Dogar,
- Abstract要約: コスト削減の最適化を明示的にサポートする大規模言語モデルのプロキシを事例として挙げる。
LLM Proxyを設計し、モデル選択、コンテキスト管理、キャッシュの3つの主要な最適化をサポートする。
ケーススタディでは、LLM Proxyを使用して、ユーザに豊富な機能セットを提供するWhatsAppベースのQ&Aサービスを実装しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we make a case for a proxy for large language models which has explicit support for cost-saving optimizations. We design LLMProxy, which supports three key optimizations: model selection, context management, and caching. These optimizations present tradeoffs in terms of cost, inference time, and response quality, which applications can navigate through our high level, bidirectional interface. As a case study, we implement a WhatsApp-based Q&A service that uses LLMProxy to provide a rich set of features to the users. This service is deployed on a small scale (100+ users) leveraging the cloud; it has been operational for 15+ weeks and users have asked 1400+ questions so far. We report on the experiences of running this service as well as microbenchmark the specific benefits of the various cost-optimizations we present in this paper.
- Abstract(参考訳): 本稿では,コスト削減の最適化を明示的にサポートする大規模言語モデルのプロキシのケースを作成する。
LLMProxyを設計し、モデル選択、コンテキスト管理、キャッシュの3つの主要な最適化をサポートする。
これらの最適化は、コスト、推論時間、応答品質の点でトレードオフを示します。
ケーススタディでは、LLMProxyを使ってユーザに対して豊富な機能セットを提供するWhatsAppベースのQ&Aサービスを実装しています。
このサービスはクラウドを利用する小さなスケール(100人以上のユーザ)でデプロイされている。
本報告では,本サービスの運用経験と,本論文で紹介する各種コスト最適化の具体的なメリットについて報告する。
関連論文リスト
- HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning [11.03159148013318]
大規模言語モデル(LLM)は多くのタスクにまたがって最先端のパフォーマンスを提供するが、高い計算とメモリコストを課す。
特殊な軽量言語モデルのプールから推論パイプラインを動的に組み立てる階層的ルーティング手法であるHierを提案する。
論文 参考訳(メタデータ) (2025-11-13T02:12:14Z) - Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving [10.746325451673274]
LLMルーティングは、モデルとクエリ機能に基づいて、クエリを最適LLMに誘導することで、コスト効率のよいソリューションを提供する。
既存の作業は主にオフラインシナリオに重点を置いており、オンライン設定への適応に苦慮している。
オンラインルーティングシナリオのためのトレーニング不要な最初のアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2025-09-02T18:15:03Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Abacus: A Cost-Based Optimizer for Semantic Operator Systems [12.831601498212397]
本稿では,セマンティック演算子の最適実装を探索するコストベースシステムであるAbacusを紹介する。
Abacusは、最小限の検証例と、もし可能であれば、オペレータのパフォーマンスに関する事前の信念を活用することで、オペレータのパフォーマンスを見積もる。
Abacusによって最適化されたシステムは、19.2%-39.2%の優れた品質、23.6倍の低コスト、4.2倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2025-05-20T17:49:46Z) - GREATERPROMPT: A Unified, Customizable, and High-Performing Open-Source Toolkit for Prompt Optimization [8.0977414944195]
GREATERPROMPTは、統一されたカスタマイズ可能なAPIの下で多様なメソッドを統合することにより、迅速な最適化を民主化する新しいフレームワークである。
我々のフレームワークは、より大きなLLMに対してテキストフィードバックに基づく最適化と、より小さなモデルに対する内部勾配に基づく最適化の両方を活用することで、様々なモデルスケールに柔軟に対応できる。
論文 参考訳(メタデータ) (2025-04-04T22:36:55Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach [0.10241134756773229]
本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。
Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-08-21T14:05:35Z) - PixelsDB: Serverless and NL-Aided Data Analytics with Flexible Service Levels and Prices [17.048398987952332]
PixelsDBは、ユーザが効率的にデータを探索できるオープンソースのデータ分析システムである。
クエリは、さまざまなパフォーマンスサービスレベル(SLA)に対してさまざまな価格を提供するサーバレスクエリエンジンによって実行される。
サーバレスパラダイム,自然言語支援インターフェース,フレキシブルSLAと価格の組み合わせによって,クラウドデータ分析システムのユーザビリティが大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-05-30T07:48:43Z) - Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services [18.856801632455678]
Andesは、テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムである。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$times$で改善することを示した。
論文 参考訳(メタデータ) (2024-04-25T01:56:00Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - LMaaS: Exploring Pricing Strategy of Large Model as a Service for
Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。
本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。
第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文 参考訳(メタデータ) (2024-01-05T07:19:19Z) - Prompting Frameworks for Large Language Models: A Survey [22.770904267189586]
大規模言語モデル(LLM)は、学術と産業の両方で大きな進歩を遂げた。
Prompting Framework(PF)は、大規模言語モデルとの相互作用を管理し、単純化し、促進するフレームワークである。
論文 参考訳(メタデータ) (2023-11-21T18:51:03Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Dynamic Resource Allocation for Metaverse Applications with Deep
Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。
まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。
そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文 参考訳(メタデータ) (2023-02-27T00:30:01Z) - MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。
近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。
本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文 参考訳(メタデータ) (2022-02-23T00:27:49Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。