論文の概要: LLMBridge: Reducing Costs in a Prompt-Centric Internet
- arxiv url: http://arxiv.org/abs/2410.11857v2
- Date: Mon, 13 Oct 2025 20:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.924445
- Title: LLMBridge: Reducing Costs in a Prompt-Centric Internet
- Title(参考訳): LLMBridge: プロンプト中心のインターネットにおけるコスト削減
- Authors: Noah Martin, Abdullah Bin Faisal, Hiba Eltigani, Rukhshan Haroon, Swaminathan Lamelas, Fahad Dogar,
- Abstract要約: LLMBridgeは、開発途上国や教育など、コストを意識したユーザ向けに設計されたプロキシである。
モデル選択、コンテキスト管理、セマンティックキャッシングの3つの主要な最適化をサポートしている。
WhatsAppベースのQ&Aサービスと大学の教室環境です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's Internet infrastructure is centered around content retrieval over HTTP, with middleboxes (e.g., HTTP proxies) playing a crucial role in performance, security, and cost-effectiveness. We envision a future where Internet communication will be dominated by "prompts" sent to generative AI models. For this, we will need proxies that provide similar functions to HTTP proxies (e.g., caching, routing, compression) while dealing with unique challenges and opportunities of prompt-based communication. As a first step toward supporting prompt-based communication, we present LLMBridge, an LLM proxy designed for cost-conscious users, such as those in developing regions and education (e.g., students, instructors). LLMBridge supports three key optimizations: model selection (routing prompts to the most suitable model), context management (intelligently reducing the amount of context), and semantic caching (serving prompts using local models and vector databases). These optimizations introduce trade-offs between cost and quality, which applications navigate through a high-level, bidirectional interface. As case studies, we deploy LLMBridge in two cost-sensitive settings: a WhatsApp-based Q&A service and a university classroom environment. The WhatsApp service has been live for over twelve months, serving 100+ users and handling more than 14.7K requests. In parallel, we exposed LLMBridge to students across three computer science courses over a semester, where it supported diverse LLM-powered applications - such as reasoning agents and chatbots - and handled an average of 500 requests per day. We report on deployment experiences across both settings and use the collected workloads to benchmark the effectiveness of various cost-optimization strategies, analyzing their trade-offs in cost, latency, and response quality.
- Abstract(参考訳): 今日のインターネットインフラストラクチャは、HTTP上のコンテンツ検索を中心としており、ミドルボックス(HTTPプロキシなど)がパフォーマンス、セキュリティ、コスト効率において重要な役割を果たす。
我々は、インターネット通信が生成AIモデルに送信される"プロンプト"によって支配される未来を想定する。
そのためには、独自の課題やプロンプトベースの通信の機会に対処しながら、HTTPプロキシ(例えば、キャッシュ、ルーティング、圧縮)と同じような機能を提供するプロキシが必要です。
本稿では,開発途上国や教育機関(例えば,学生,インストラクター)など,コストを意識したユーザ向けに設計されたLLMプロキシであるLLMBridgeについて紹介する。
LLMBridgeは、モデル選択(最も適切なモデルへのルーティングプロンプト)、コンテキスト管理(コンテキストの量をインテリジェントに削減)、セマンティックキャッシング(ローカルモデルとベクトルデータベースを使用したサービスプロンプト)の3つの主要な最適化をサポートしている。
これらの最適化はコストと品質のトレードオフを導入し、アプリケーションが高レベルの双方向インターフェースをナビゲートする。
ケーススタディでは、WhatsAppベースのQ&Aサービスと大学の教室環境という、2つのコストセンシティブな設定でLLMBridgeをデプロイします。
このWhatsAppサービスは、100人以上のユーザーに提供され、14.7K以上のリクエストを処理する。
同時に、LLMBridgeは、学期を通じて3つのコンピュータサイエンスコースの学生に公開し、推論エージェントやチャットボットなど、多様なLCMベースのアプリケーションをサポートし、1日平均500リクエストを処理しました。
設定と収集したワークロードを使用して、さまざまなコスト最適化戦略の有効性をベンチマークし、コスト、レイテンシ、レスポンス品質のトレードオフを分析します。
関連論文リスト
- Abacus: A Cost-Based Optimizer for Semantic Operator Systems [12.831601498212397]
本稿では,セマンティック演算子の最適実装を探索するコストベースシステムであるAbacusを紹介する。
Abacusは、最小限の検証例と、もし可能であれば、オペレータのパフォーマンスに関する事前の信念を活用することで、オペレータのパフォーマンスを見積もる。
Abacusによって最適化されたシステムは、19.2%-39.2%の優れた品質、23.6倍の低コスト、4.2倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2025-05-20T17:49:46Z) - GREATERPROMPT: A Unified, Customizable, and High-Performing Open-Source Toolkit for Prompt Optimization [8.0977414944195]
GREATERPROMPTは、統一されたカスタマイズ可能なAPIの下で多様なメソッドを統合することにより、迅速な最適化を民主化する新しいフレームワークである。
我々のフレームワークは、より大きなLLMに対してテキストフィードバックに基づく最適化と、より小さなモデルに対する内部勾配に基づく最適化の両方を活用することで、様々なモデルスケールに柔軟に対応できる。
論文 参考訳(メタデータ) (2025-04-04T22:36:55Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach [0.10241134756773229]
本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。
Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-08-21T14:05:35Z) - PixelsDB: Serverless and NL-Aided Data Analytics with Flexible Service Levels and Prices [17.048398987952332]
PixelsDBは、ユーザが効率的にデータを探索できるオープンソースのデータ分析システムである。
クエリは、さまざまなパフォーマンスサービスレベル(SLA)に対してさまざまな価格を提供するサーバレスクエリエンジンによって実行される。
サーバレスパラダイム,自然言語支援インターフェース,フレキシブルSLAと価格の組み合わせによって,クラウドデータ分析システムのユーザビリティが大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-05-30T07:48:43Z) - Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services [18.856801632455678]
Andesは、テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムである。
我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$times$で改善することを示した。
論文 参考訳(メタデータ) (2024-04-25T01:56:00Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - LMaaS: Exploring Pricing Strategy of Large Model as a Service for
Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。
本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。
第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文 参考訳(メタデータ) (2024-01-05T07:19:19Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Dynamic Resource Allocation for Metaverse Applications with Deep
Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。
まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。
そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文 参考訳(メタデータ) (2023-02-27T00:30:01Z) - MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。
近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。
本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文 参考訳(メタデータ) (2022-02-23T00:27:49Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。