論文の概要: BeLLMan: Controlling LLM Congestion
- arxiv url: http://arxiv.org/abs/2510.15330v1
- Date: Fri, 17 Oct 2025 05:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.48199
- Title: BeLLMan: Controlling LLM Congestion
- Title(参考訳): BeLLMan: LLMの混雑を制御する
- Authors: Tella Rajashekhar Reddy, Atharva Deshmukh, Karan Tandon, Rohan Gandhi, Anjaly Parayil, Debopam Bhattacherjee,
- Abstract要約: 大規模言語モデル(LLM)アプリケーションは、下のインフラストラクチャに目隠しされ、システム負荷に無関係に自動回帰的にトークンを生成する。
私たちのファーストカットコントローラであるbeLLManは、システム負荷の変化に応じて出力長を調整するために、LLMインフラストラクチャをアクティブかつ段階的に第1のLLMアプリケーションに通知することを可能にする。
- 参考スコア(独自算出の注目度): 1.6728793271113227
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) applications are blindfolded to the infrastructure underneath and generate tokens autoregressively, indifferent to the system load, thus risking inferencing latency inflation and poor user experience. Our first-cut controller, named beLLMan, enables the LLM infrastructure to actively and progressively signal the first-party LLM application to adjust the output length in response to changing system load. On a real testbed with H100 GPUs, beLLMan helps keep inferencing latency under control (upto 8X lower end-to-end latency) and reduces energy consumption by 25% (while serving 19% more requests) during periods of congestion for a summarization workload.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションは、下のインフラストラクチャに目隠しされ、システムの負荷によらず自己回帰的にトークンを生成します。
私たちのファーストカットコントローラであるbeLLManは、システム負荷の変化に応じて出力長を調整するために、LLMインフラストラクチャをアクティブかつ段階的に第1のLCMアプリケーションに通知することを可能にする。
H100 GPUの実際のテストベッドでは、beLLManは遅延の参照を制御(エンドツーエンドのレイテンシを最大8倍まで削減)し、要約ワークロードの混雑期間に(さらに19%のリクエストを処理しながら)エネルギー消費を25%削減する。
関連論文リスト
- lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models [7.524517279167586]
大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:05:30Z) - VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving [13.494819588196371]
VoltanaLLMは、エネルギー効率の高いLarge Language Model(LLM)を提供するシステムである。
出現するプリフィル/デコード分離アーキテクチャにおける周波数スケーリングとリクエストルーティングを共同設計する。
ほぼ完全なSLO達成率を維持しながら、最大36.3%の省エネを実現している。
論文 参考訳(メタデータ) (2025-09-05T05:58:16Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Length Controlled Generation for Black-box LLMs [70.57649832433451]
大規模言語モデル (LLM) は印象的な命令に従う能力を示しているが、生成したテキストの長さを正確に管理することは困難である。
本稿では,Metropolis-Hastingsアルゴリズムと重要なサンプリング高速化戦略を組み合わせた,テキスト長制御のための新しい反復サンプリングフレームワークを提案する。
このフレームワークは,Llama3.1における長さ制御の抽象的要約などのタスクに対して,ほぼ100%の成功率を達成する。
論文 参考訳(メタデータ) (2024-12-19T09:07:38Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。