Fugu-MT 論文翻訳(概要): RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models

論文の概要: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models

arxiv url: http://arxiv.org/abs/2309.06619v1
Date: Tue, 12 Sep 2023 22:22:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 15:59:39.132970
Title: RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models
Title（参考訳）: RT-LM:言語モデルのリアルタイム推論のための不確実性を考慮した資源管理
Authors: Yufei Li, Zexin Li, Wei Yang, Cong Liu
Abstract要約: 言語の性質に固有の不確実性の結果として特定される様々な推論レイテンシは、計算の非効率性につながる。実時間でのLM推定のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。 RT-LMは,実行時のオーバーヘッドを小さく抑えながら,平均応答時間を大幅に削減し,スループットを向上させることができることを示す。
参考スコア（独自算出の注目度）: 12.947537874888717
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in language models (LMs) have gained substantial attentions on their capability to generate human-like responses. Though exhibiting a promising future for various applications such as conversation AI, these LMs face deployment challenges on various devices due to their extreme computational cost and unpredictable inference latency. Such varied inference latency, identified as a consequence of uncertainty intrinsic to the nature of language, can lead to computational inefficiency and degrade the overall performance of LMs, especially under high-traffic workloads. Unfortunately, the bandwidth of these uncertainty sources is extensive, complicating the prediction of latency and the effects emanating from such uncertainties. To understand and mitigate the impact of uncertainty on real-time response-demanding systems, we take the first step to comprehend, quantify and optimize these uncertainty-induced latency performance variations in LMs. Specifically, we present RT-LM, an uncertainty-aware resource management ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how specific input uncertainties, adversely affect latency, often leading to an increased output length. Exploiting these insights, we devise a lightweight yet effective method to dynamically correlate input text uncertainties with output length at runtime. Utilizing this quantification as a latency heuristic, we integrate the uncertainty information into a system-level scheduler which explores several uncertainty-induced optimization opportunities, including uncertainty-aware prioritization, dynamic consolidation, and strategic CPU offloading. Quantitative experiments across five state-of-the-art LMs on two hardware platforms demonstrates that RT-LM can significantly reduce the average response time and improve throughput while incurring a rather small runtime overhead.
Abstract（参考訳）: 近年の言語モデル(LM)の進歩は、人間のような応答を生成する能力に大きな注目を集めている。会話AIのような様々なアプリケーションにとって有望な未来を示す一方で、これらのLMは計算コストの極端さと予測不可能な推論遅延のために、さまざまなデバイスにデプロイする課題に直面している。このような様々な推論遅延は、言語の性質に固有の不確実性の結果として認識され、特に高トラフィックなワークロードにおいて、計算効率が低下し、lmsの全体的な性能が低下する可能性がある。残念ながら、これらの不確実性源の帯域幅は広く、遅延の予測とそのような不確実性から生じる影響を複雑にしている。実時間応答要求システムにおける不確実性の影響を理解し,緩和するために,我々は,これらの不確実性に起因するLMの性能変化を理解し,定量化し,最適化する第一歩を踏み出した。具体的には,実時間予測のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。 RT-LMは、特定の入力の不確かさが遅延にどのように影響するかを革新的に定量化し、しばしば出力長を増大させる。これらの知見をエクスプロイトし、実行時に出力長と入力テキストの不確かさを動的に相関させる軽量で効果的な手法を考案する。この量化をレイテンシーヒューリスティックとして利用し,不確実性情報をシステムレベルのスケジューラに統合し,不確実性を考慮した優先順位付け,動的統合,戦略的cpuオフローディングなど,不確実性が引き起こされる最適化機会を探索する。 2つのハードウェアプラットフォームにおける5つの最先端のlmsにおける定量的実験は、rt-lmが平均応答時間を大幅に削減し、実行時のオーバーヘッドをかなり小さくしながらスループットを向上させることを証明している。

関連論文リスト

SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文参考訳（メタデータ） (2025-05-18T10:20:59Z)
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [5.100085108873068]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。小さなLMの生成過程における幻覚の蓄積と伝播を計算する。検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文参考訳（メタデータ） (2025-05-05T01:45:56Z)
Learning to Inference Adaptively for Multimodal Large Language Models [19.510735093226703]
AdaLLaVA(アダプティブ・推論・フレームワーク)を導入し,MLLM内での演算の再構成を学習する。質問応答、推論、幻覚を含むベンチマークで実験を行う。以上の結果から,AdaLLaVAは入力レイテンシの予算に効果的に準拠し,実行時の精度やレイテンシのトレードオフが変化することがわかった。
論文参考訳（メタデータ） (2025-03-13T21:39:38Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs [19.798249518847694]
本稿では,大規模言語モデル(LLM)における順序感度の程度について検討する。その結果,入力順序はタスク間の性能に大きく影響し,シャッフルされた入力は出力精度を測定不能に低下させることがわかった。ショットプロンプトは複雑な効果を示し、部分緩和を提供するが、問題は完全な解決には至らなかった。
論文参考訳（メタデータ） (2025-02-06T15:14:02Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Developing a Reliable, General-Purpose Hallucination Detection and Mitigation Service: Insights and Lessons Learned [36.216938133315786]
大型言語モデル(LLM)における幻覚の発見と修正を目的とした信頼性の高い高速生産システムを提案する。我々のシステムは、名前付きエンティティ認識(NER)、自然言語推論(NLI)、スパンベース検出(SBD)を含む。フレームワークの中核となる要素を詳述し、応答時間、可用性、パフォーマンスメトリクスに関連する最重要課題を過小評価します。
論文参考訳（メタデータ） (2024-07-22T07:48:30Z)
Future Aware Safe Active Learning of Time Varying Systems using Gaussian Processes [8.678546901075984]
本稿では,時間変動システムに適した安全な能動学習フレームワークを提案する。時間認識型平均二乗予測誤差(T-IMSPE)法は,現在および将来の状態に対する後方分散を最小化する。
論文参考訳（メタデータ） (2024-05-17T07:09:52Z)
Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。 LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。 LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文参考訳（メタデータ） (2024-05-12T02:38:58Z)
Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文参考訳（メタデータ） (2024-04-25T12:11:38Z)
Forecasting Long-Time Dynamics in Quantum Many-Body Systems by Dynamic Mode Decomposition [6.381013699474244]
そこで本研究では,身体量の短時間データの信頼性を利用して,長時間の挙動を正確に予測する手法を提案する。この方法は流体力学で一般的に用いられる動的モード分解(DMD)に基づいている。本手法により,短時間のトレーニングデータよりも1桁近い精度の予測が可能であることが実証された。
論文参考訳（メタデータ） (2024-03-29T03:10:34Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。 PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文参考訳（メタデータ） (2023-07-19T20:16:46Z)
Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。 Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。 $mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文参考訳（メタデータ） (2022-08-30T08:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。