論文の概要: SmartLLMs Scheduler: A Framework for Cost-Effective LLMs Utilization
- arxiv url: http://arxiv.org/abs/2508.03258v1
- Date: Tue, 05 Aug 2025 09:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.890033
- Title: SmartLLMs Scheduler: A Framework for Cost-Effective LLMs Utilization
- Title(参考訳): SmartLLMs Scheduler: コスト効果 LLM の利用のためのフレームワーク
- Authors: Yueyue Liu, Hongyu Zhang, Yuantian Miao,
- Abstract要約: 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示している。
多様なタスクにLLMをデプロイするための既存の最適化戦略は、静的スケジューリングに重点を置いている。
本稿では,動的かつ費用対効果の高いスケジューリングソリューションであるSmartLLMs Scheduler (SLS)を提案する。
- 参考スコア(独自算出の注目度): 9.615876932810126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as GPT-4 and Llama have shown remarkable capabilities in a variety of software engineering tasks. Despite the advancements, their practical deployment faces challenges, including high financial costs, long response time, and varying performance, especially when handling a large number of queries (jobs). Existing optimization strategies for deploying LLMs for diverse tasks focus on static scheduling, which requires extensive training data for performance prediction, increasing the computational costs and limiting the applicability and flexibility. In this paper, we propose the SmartLLMs Scheduler (SLS), a dynamic and cost-effective scheduling solution. The key idea is to learn LLMs' performance on diverse tasks and incorporate their real-time feedback to update strategies periodically. Specifically, SLS incorporates three key components, including an Adaptive Cache Manager, a Performance-Cost Optimized Scheduler, and a Dynamic Update Manager. The Cache Manager stores the outputs of previously processed queries and employs an adaptive strategy to reduce redundant computations and minimize response times. For queries not found in the cache, the Scheduler dynamically allocates them to the most suitable LLM based on the predicted performance and cost from models that take both query-specific and LLM-specific features as input. The Update Manager continuously refines the cache and scheduling strategies based on real-time feedback from the assigned queries to enhance decision-making and adapt to evolving task characteristics. To evaluate the effectiveness of SLS, we conduct extensive experiments on two LLM-based software engineering tasks, including log parsing and code generation. The results show that SLS significantly outperforms the baseline methods, achieving an average performance improvement of 198.82% and an average processing time reduction of 63.28%.
- Abstract(参考訳): GPT-4やLlamaのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な能力を示している。
進歩にもかかわらず、彼らの実践的なデプロイメントは、特に多数のクエリ(ジョブ)を扱う場合、高い金銭的コスト、長いレスポンス時間、さまざまなパフォーマンスなど、課題に直面します。
多様なタスクにLLMをデプロイするための既存の最適化戦略は、パフォーマンス予測のための広範なトレーニングデータ、計算コストの増大、適用性と柔軟性の制限を必要とする静的スケジューリングに重点を置いている。
本稿では,動的かつ費用対効果の高いスケジューリングソリューションであるSmartLLMs Scheduler (SLS)を提案する。
鍵となる考え方は、多様なタスクでLLMのパフォーマンスを学習し、リアルタイムフィードバックを組み込んで戦略を定期的に更新することである。
具体的には、Adaptive Cache Manager、Performance-Cost Optimized Scheduler、Dynamic Update Managerの3つの重要なコンポーネントが含まれている。
キャッシュマネージャは、以前処理されたクエリの出力を格納し、冗長な計算を減らし、応答時間を最小化するために適応戦略を使用する。
キャッシュにないクエリに対して、Schdulerは、クエリ固有の機能とLLM固有の機能の両方を入力として取り込むモデルから予測されるパフォーマンスとコストに基づいて、それらを最も適切なLCMに動的に割り当てる。
Update Managerは、割り当てられたクエリからのリアルタイムフィードバックに基づいてキャッシュとスケジューリング戦略を継続的に改善し、意思決定を強化し、進化するタスク特性に適応する。
SLSの有効性を評価するために、ログ解析とコード生成を含む2つのLCMベースのソフトウェアエンジニアリングタスクについて広範な実験を行った。
その結果、SLSはベースライン法を著しく上回り、平均性能は198.82%、平均処理時間は63.28%向上した。
関連論文リスト
- LLM4Hint: Leveraging Large Language Models for Hint Recommendation in Offline Query Optimization [7.00597706249493]
本稿では,学習句の一般化を促進するために,Large Language Model(LLM)をどのように組み込むかを検討する。
我々は,中規模のバックボーンLLMを利用してクエリ最適化ヒントを推奨する textbfLLM4Hint を提案する。
論文 参考訳(メタデータ) (2025-07-04T08:32:17Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。
この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。
ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。
私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文 参考訳(メタデータ) (2024-09-23T02:43:08Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。