論文の概要: Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline
- arxiv url: http://arxiv.org/abs/2305.13144v2
- Date: Sun, 28 May 2023 08:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 23:51:59.476047
- Title: Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline
- Title(参考訳): LLMを用いたLLM推論パイプラインの応答長知覚とシーケンススケジューリング
- Authors: Zangwei Zheng, Xiaozhe Ren, Fuzhao Xue, Yang Luo, Xin Jiang, Yang You
- Abstract要約: 大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
- 参考スコア(独自算出の注目度): 22.08897444328099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized the field of AI,
demonstrating unprecedented capacity across various tasks. However, the
inference process for LLMs comes with significant computational costs. In this
paper, we propose an efficient LLM inference pipeline that harnesses the power
of LLMs. Our approach begins by tapping into the potential of LLMs to
accurately perceive and predict the response length with minimal overhead. By
leveraging this information, we introduce an efficient sequence scheduling
technique that groups queries with similar response lengths into micro-batches.
We evaluate our approach on real-world instruction datasets using the
LLaMA-based model, and our results demonstrate an impressive 86% improvement in
inference throughput without compromising effectiveness. Notably, our method is
orthogonal to other inference acceleration techniques, making it a valuable
addition to many existing toolkits (e.g., FlashAttention, Quantization) for LLM
inference.
- Abstract(参考訳): 大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
しかし、LLMの推論プロセスにはかなりの計算コストが伴う。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
我々のアプローチは、LLMのポテンシャルをタップして、最小限のオーバーヘッドで応答長を正確に知覚し、予測することから始まります。
この情報を活用することで、類似の応答長を持つクエリをマイクロバッチにグループ化する効率的なシーケンススケジューリング手法を導入する。
LLaMAモデルを用いて実世界の命令データセットに対するアプローチを評価し,提案手法の有効性を損なうことなく,推論スループットが86%向上したことを示す。
特に,本手法は他の推論高速化手法と直交しており,LLM推論のための多くの既存のツールキット(例えば,FlashAttention, Quantization)に付加価値がある。
関連論文リスト
- LLMs can Schedule [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)は、生産プロセスの最適化において重要なハードルであり続けている。
本稿では,JSSPにおけるLarge Language Models(LLM)の可能性について検討する。
驚くべきことに,LLMに基づくスケジューリングは,他のニューラルアプローチに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T15:53:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Efficient Sequential Decision Making with Large Language Models [19.083642464977224]
本稿では,大規模言語モデル(LLM)の成功を逐次意思決定に拡張することに焦点を当てる。
既存の取り組みは、 (i) 意思決定のための再訓練または微調整 LLM または (ii) 事前訓練された LLM の設計プロンプトのいずれかである。
本稿では,オンラインモデル選択アルゴリズムを活用してLLMエージェントを逐次意思決定に効率的に組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:13:22Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。