論文の概要: Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization
- arxiv url: http://arxiv.org/abs/2405.07140v1
- Date: Sun, 12 May 2024 02:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:18:14.065956
- Title: Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization
- Title(参考訳): バッチと量子化を用いた大規模言語モデル推論のためのエッジインテリジェンス最適化
- Authors: Xinyuan Zhang, Jiang Liu, Zehui Xiong, Yudong Huang, Gaochang Xie, Ran Zhang,
- Abstract要約: 大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
- 参考スコア(独自算出の注目度): 20.631476379056892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Artificial Intelligence (GAI) is taking the world by storm with its unparalleled content creation ability. Large Language Models (LLMs) are at the forefront of this movement. However, the significant resource demands of LLMs often require cloud hosting, which raises issues regarding privacy, latency, and usage limitations. Although edge intelligence has long been utilized to solve these challenges by enabling real-time AI computation on ubiquitous edge resources close to data sources, most research has focused on traditional AI models and has left a gap in addressing the unique characteristics of LLM inference, such as considerable model size, auto-regressive processes, and self-attention mechanisms. In this paper, we present an edge intelligence optimization problem tailored for LLM inference. Specifically, with the deployment of the batching technique and model quantization on resource-limited edge devices, we formulate an inference model for transformer decoder-based LLMs. Furthermore, our approach aims to maximize the inference throughput via batch scheduling and joint allocation of communication and computation resources, while also considering edge resource constraints and varying user requirements of latency and accuracy. To address this NP-hard problem, we develop an optimal Depth-First Tree-Searching algorithm with online tree-Pruning (DFTSP) that operates within a feasible time complexity. Simulation results indicate that DFTSP surpasses other batching benchmarks in throughput across diverse user settings and quantization techniques, and it reduces time complexity by over 45% compared to the brute-force searching method.
- Abstract(参考訳): Generative Artificial Intelligence(GAI)は、非並列なコンテンツ生成能力で世界を席巻している。
大規模言語モデル(LLM)がこの運動の最前線にある。
しかし、LLMの重要なリソース要求は、しばしばクラウドホスティングを必要とするため、プライバシ、レイテンシ、利用制限に関する問題が発生する。
エッジインテリジェンス(エッジインテリジェンス)は、データソースに近いユビキタスなエッジリソース上でリアルタイムのAI計算を可能にすることで、これらの課題に長年利用されてきたが、ほとんどの研究は、従来のAIモデルに焦点を当てており、モデルサイズや自動回帰プロセス、自己保持機構など、LLM推論のユニークな特徴に対処する際のギャップを残している。
本稿では,LLM推論に適したエッジインテリジェンス最適化問題を提案する。
具体的には,資源制限エッジデバイス上でのバッチ処理手法の展開とモデル量子化により,トランスフォーマーデコーダを用いたLCMの推論モデルを定式化する。
さらに,バッチスケジューリングによる推論スループットの最大化と通信資源と計算資源の同時割り当てを目標とし,エッジリソースの制約とレイテンシと精度の変動を考慮した。
このNP-hard問題に対処するため,オンラインツリー探索(DFTSP)を用いたDepth-First Tree-Searchingアルゴリズムを開発した。
シミュレーションの結果, DFTSPは, 多様なユーザ設定や量子化技術にまたがるスループットの他のバッチベンチマークを上回り, ブルートフォースサーチ法と比較して, 時間複雑性を45%以上低減することがわかった。
関連論文リスト
- DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - Learning Robust Scheduling with Search and Attention [6.217548079545464]
物理層リソースをチャネル品質、バッファサイズ、要求および制約に基づいてユーザに割り当てることは、無線リソースの管理における中心的な最適化問題の1つである。
MU-MIMOスケジューリングでは、スケジューラが複数のユーザを同じ時間周波数の物理リソースに割り当てることができる。
本稿では,MU-MIMOスケジューリング問題を木構造問題として扱うとともに,AlphaGo Zeroの最近の成功から借用して,最高の実行ソリューションを探す可能性について検討する。
論文 参考訳(メタデータ) (2021-11-15T20:46:26Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Joint Multi-User DNN Partitioning and Computational Resource Allocation
for Collaborative Edge Intelligence [21.55340197267767]
Mobile Edge Computing(MEC)は、ネットワークエッジにさまざまなリソースを提供する有望なサポートアーキテクチャとして登場した。
エッジサーバの助けを借りて、ユーザ機器(UE)はディープニューラルネットワーク(DNN)ベースのAIアプリケーションを実行することができる。
最適解を時間内に達成できるIAO (Iterative Alternating Optimization) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T09:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。