論文の概要: LiveMind: Low-latency Large Language Models with Simultaneous Inference
- arxiv url: http://arxiv.org/abs/2406.14319v1
- Date: Thu, 20 Jun 2024 13:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:32:31.205203
- Title: LiveMind: Low-latency Large Language Models with Simultaneous Inference
- Title(参考訳): LiveMind: 同時推論による低レイテンシ大言語モデル
- Authors: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li,
- Abstract要約: 大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークを提案する。
計算処理を再配置して入力位相を推し進めることで、レイテンシを大幅に削減する。
20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
- 参考スコア(独自算出の注目度): 9.795240210326346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational processes to prompt input phase, we achieve a substantial reduction in latency, thereby significantly enhancing the interactive experience for users of LLMs. The framework adeptly manages the visibility of the streaming prompt to the model, allowing it to infer from incomplete prompts or await additional prompts. Compared with traditional inference methods that utilize complete prompts, our approach demonstrates an average reduction of 59% in response latency on the MMLU-Pro dataset, while maintaining comparable accuracy. Additionally, our framework facilitates collaborative inference and output across different models. By employing an LLM for inference and a small language model (SLM) for output, we achieve an average 68% reduction in response latency, alongside a 5.5% improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline. For long prompts exceeding 20 sentences, the response latency can be reduced by up to 93%.
- Abstract(参考訳): 本稿では,LLMが不完全なプロンプトで推論を行うことを可能にする,大規模言語モデル(LLM)推論のための新しい低遅延推論フレームワークを提案する。
計算処理をインプットフェーズに再配置することで、レイテンシを大幅に削減し、LCMのユーザにとってインタラクティブなエクスペリエンスを大幅に向上させる。
このフレームワークは、モデルに対するストリーミングプロンプトの可視性を管理し、不完全なプロンプトから推論したり、追加のプロンプトを待つことができる。
提案手法は,完全プロンプトを利用する従来の推論手法と比較して,MMLU-Proデータセットの応答遅延を平均59%低減し,精度は同等である。
さらに、我々のフレームワークは異なるモデル間で協調的な推論と出力を促進する。
推定にLLM, 出力に小言語モデル(SLM)を用い, SLMベースラインと比較して, MMLU-Proデータセットの精度が5.5%向上し, 応答遅延の平均68%低減を実現した。
20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models [24.030755262499994]
我々は、命令を微調整した大規模言語モデルのコンテキスト認識を強化する新しい手法であるFastMemを紹介する。
FastMemは、最後のFeed-Forward Network (FFN)モジュールのみを微調整することで、推論前のプロンプトの可能性を最大化する。
本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。
論文 参考訳(メタデータ) (2024-06-23T10:36:35Z) - MaLa-ASR: Multimedia-Assisted LLM-Based ASR [46.0533623182935]
プレゼンテーションスライドから抽出したテキストキーワードを統合して,会議内容の認識を改善する,LLMベースのASRモデルであるMaLa-ASRを提案する。
MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、ベースラインモデルでは 27.9% と 44.7% の減少を示している。
論文 参考訳(メタデータ) (2024-06-09T16:00:00Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。