論文の概要: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models
- arxiv url: http://arxiv.org/abs/2309.06619v1
- Date: Tue, 12 Sep 2023 22:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:59:39.132970
- Title: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models
- Title(参考訳): RT-LM:言語モデルのリアルタイム推論のための不確実性を考慮した資源管理
- Authors: Yufei Li, Zexin Li, Wei Yang, Cong Liu
- Abstract要約: 言語の性質に固有の不確実性の結果として特定される様々な推論レイテンシは、計算の非効率性につながる。
実時間でのLM推定のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは,実行時のオーバーヘッドを小さく抑えながら,平均応答時間を大幅に削減し,スループットを向上させることができることを示す。
- 参考スコア(独自算出の注目度): 12.947537874888717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in language models (LMs) have gained substantial
attentions on their capability to generate human-like responses. Though
exhibiting a promising future for various applications such as conversation AI,
these LMs face deployment challenges on various devices due to their extreme
computational cost and unpredictable inference latency. Such varied inference
latency, identified as a consequence of uncertainty intrinsic to the nature of
language, can lead to computational inefficiency and degrade the overall
performance of LMs, especially under high-traffic workloads. Unfortunately, the
bandwidth of these uncertainty sources is extensive, complicating the
prediction of latency and the effects emanating from such uncertainties. To
understand and mitigate the impact of uncertainty on real-time
response-demanding systems, we take the first step to comprehend, quantify and
optimize these uncertainty-induced latency performance variations in LMs.
Specifically, we present RT-LM, an uncertainty-aware resource management
ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how
specific input uncertainties, adversely affect latency, often leading to an
increased output length. Exploiting these insights, we devise a lightweight yet
effective method to dynamically correlate input text uncertainties with output
length at runtime. Utilizing this quantification as a latency heuristic, we
integrate the uncertainty information into a system-level scheduler which
explores several uncertainty-induced optimization opportunities, including
uncertainty-aware prioritization, dynamic consolidation, and strategic CPU
offloading. Quantitative experiments across five state-of-the-art LMs on two
hardware platforms demonstrates that RT-LM can significantly reduce the average
response time and improve throughput while incurring a rather small runtime
overhead.
- Abstract(参考訳): 近年の言語モデル(LM)の進歩は、人間のような応答を生成する能力に大きな注目を集めている。
会話AIのような様々なアプリケーションにとって有望な未来を示す一方で、これらのLMは計算コストの極端さと予測不可能な推論遅延のために、さまざまなデバイスにデプロイする課題に直面している。
このような様々な推論遅延は、言語の性質に固有の不確実性の結果として認識され、特に高トラフィックなワークロードにおいて、計算効率が低下し、lmsの全体的な性能が低下する可能性がある。
残念ながら、これらの不確実性源の帯域幅は広く、遅延の予測とそのような不確実性から生じる影響を複雑にしている。
実時間応答要求システムにおける不確実性の影響を理解し,緩和するために,我々は,これらの不確実性に起因するLMの性能変化を理解し,定量化し,最適化する第一歩を踏み出した。
具体的には,実時間予測のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは、特定の入力の不確かさが遅延にどのように影響するかを革新的に定量化し、しばしば出力長を増大させる。
これらの知見をエクスプロイトし、実行時に出力長と入力テキストの不確かさを動的に相関させる軽量で効果的な手法を考案する。
この量化をレイテンシーヒューリスティックとして利用し,不確実性情報をシステムレベルのスケジューラに統合し,不確実性を考慮した優先順位付け,動的統合,戦略的cpuオフローディングなど,不確実性が引き起こされる最適化機会を探索する。
2つのハードウェアプラットフォームにおける5つの最先端のlmsにおける定量的実験は、rt-lmが平均応答時間を大幅に削減し、実行時のオーバーヘッドをかなり小さくしながらスループットを向上させることを証明している。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Developing a Reliable, General-Purpose Hallucination Detection and Mitigation Service: Insights and Lessons Learned [36.216938133315786]
大型言語モデル(LLM)における幻覚の発見と修正を目的とした信頼性の高い高速生産システムを提案する。
我々のシステムは、名前付きエンティティ認識(NER)、自然言語推論(NLI)、スパンベース検出(SBD)を含む。
フレームワークの中核となる要素を詳述し、応答時間、可用性、パフォーマンスメトリクスに関連する最重要課題を過小評価します。
論文 参考訳(メタデータ) (2024-07-22T07:48:30Z) - Future Aware Safe Active Learning of Time Varying Systems using Gaussian Processes [8.678546901075984]
本稿では,時間変動システムに適した安全な能動学習フレームワークを提案する。
時間認識型平均二乗予測誤差(T-IMSPE)法は,現在および将来の状態に対する後方分散を最小化する。
論文 参考訳(メタデータ) (2024-05-17T07:09:52Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。
生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。
実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文 参考訳(メタデータ) (2024-04-25T12:11:38Z) - Forecasting Long-Time Dynamics in Quantum Many-Body Systems by Dynamic Mode Decomposition [6.381013699474244]
そこで本研究では,身体量の短時間データの信頼性を利用して,長時間の挙動を正確に予測する手法を提案する。
この方法は流体力学で一般的に用いられる動的モード分解(DMD)に基づいている。
本手法により,短時間のトレーニングデータよりも1桁近い精度の予測が可能であることが実証された。
論文 参考訳(メタデータ) (2024-03-29T03:10:34Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。