論文の概要: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models
- arxiv url: http://arxiv.org/abs/2309.06619v1
- Date: Tue, 12 Sep 2023 22:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:59:39.132970
- Title: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models
- Title(参考訳): RT-LM:言語モデルのリアルタイム推論のための不確実性を考慮した資源管理
- Authors: Yufei Li, Zexin Li, Wei Yang, Cong Liu
- Abstract要約: 言語の性質に固有の不確実性の結果として特定される様々な推論レイテンシは、計算の非効率性につながる。
実時間でのLM推定のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは,実行時のオーバーヘッドを小さく抑えながら,平均応答時間を大幅に削減し,スループットを向上させることができることを示す。
- 参考スコア(独自算出の注目度): 12.947537874888717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in language models (LMs) have gained substantial
attentions on their capability to generate human-like responses. Though
exhibiting a promising future for various applications such as conversation AI,
these LMs face deployment challenges on various devices due to their extreme
computational cost and unpredictable inference latency. Such varied inference
latency, identified as a consequence of uncertainty intrinsic to the nature of
language, can lead to computational inefficiency and degrade the overall
performance of LMs, especially under high-traffic workloads. Unfortunately, the
bandwidth of these uncertainty sources is extensive, complicating the
prediction of latency and the effects emanating from such uncertainties. To
understand and mitigate the impact of uncertainty on real-time
response-demanding systems, we take the first step to comprehend, quantify and
optimize these uncertainty-induced latency performance variations in LMs.
Specifically, we present RT-LM, an uncertainty-aware resource management
ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how
specific input uncertainties, adversely affect latency, often leading to an
increased output length. Exploiting these insights, we devise a lightweight yet
effective method to dynamically correlate input text uncertainties with output
length at runtime. Utilizing this quantification as a latency heuristic, we
integrate the uncertainty information into a system-level scheduler which
explores several uncertainty-induced optimization opportunities, including
uncertainty-aware prioritization, dynamic consolidation, and strategic CPU
offloading. Quantitative experiments across five state-of-the-art LMs on two
hardware platforms demonstrates that RT-LM can significantly reduce the average
response time and improve throughput while incurring a rather small runtime
overhead.
- Abstract(参考訳): 近年の言語モデル(LM)の進歩は、人間のような応答を生成する能力に大きな注目を集めている。
会話AIのような様々なアプリケーションにとって有望な未来を示す一方で、これらのLMは計算コストの極端さと予測不可能な推論遅延のために、さまざまなデバイスにデプロイする課題に直面している。
このような様々な推論遅延は、言語の性質に固有の不確実性の結果として認識され、特に高トラフィックなワークロードにおいて、計算効率が低下し、lmsの全体的な性能が低下する可能性がある。
残念ながら、これらの不確実性源の帯域幅は広く、遅延の予測とそのような不確実性から生じる影響を複雑にしている。
実時間応答要求システムにおける不確実性の影響を理解し,緩和するために,我々は,これらの不確実性に起因するLMの性能変化を理解し,定量化し,最適化する第一歩を踏み出した。
具体的には,実時間予測のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは、特定の入力の不確かさが遅延にどのように影響するかを革新的に定量化し、しばしば出力長を増大させる。
これらの知見をエクスプロイトし、実行時に出力長と入力テキストの不確かさを動的に相関させる軽量で効果的な手法を考案する。
この量化をレイテンシーヒューリスティックとして利用し,不確実性情報をシステムレベルのスケジューラに統合し,不確実性を考慮した優先順位付け,動的統合,戦略的cpuオフローディングなど,不確実性が引き起こされる最適化機会を探索する。
2つのハードウェアプラットフォームにおける5つの最先端のlmsにおける定量的実験は、rt-lmが平均応答時間を大幅に削減し、実行時のオーバーヘッドをかなり小さくしながらスループットを向上させることを証明している。
関連論文リスト
- Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。
生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。
実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文 参考訳(メタデータ) (2024-04-25T12:11:38Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Forecasting Long-Time Dynamics in Quantum Many-Body Systems by Dynamic Mode Decomposition [6.381013699474244]
そこで本研究では,身体量の短時間データの信頼性を利用して,長時間の挙動を正確に予測する手法を提案する。
この方法は流体力学で一般的に用いられる動的モード分解(DMD)に基づいている。
本手法により,短時間のトレーニングデータよりも1桁近い精度の予測が可能であることが実証された。
論文 参考訳(メタデータ) (2024-03-29T03:10:34Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural
Network [0.0]
再生可能エネルギー源と電気自動車などの新興負荷をスマートグリッドに統合することは、配電系統管理に不確実性をもたらす。デマンドサイドマネジメント(DSM)は、不確実性を低減するためのアプローチの一つである。
Nonintrusive Load Monitoring (NILM) のようなアプリケーションは DSM をサポートすることができるが、高解像度データの正確な予測は必要である。
高いボラティリティのため、一戸建て住宅のような単一負荷の場合、これは難しい。
論文 参考訳(メタデータ) (2021-09-26T05:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。