論文の概要: Large Language Model Partitioning for Low-Latency Inference at the Edge
- arxiv url: http://arxiv.org/abs/2505.02533v1
- Date: Mon, 05 May 2025 10:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.646881
- Title: Large Language Model Partitioning for Low-Latency Inference at the Edge
- Title(参考訳): エッジにおける低レイテンシ推論のための大規模言語モデル分割
- Authors: Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos,
- Abstract要約: 自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。
この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。
本稿では,トークン生成時に一定間隔で分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。
当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。
- 参考スコア(独自算出の注目度): 6.019511429258932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) based on autoregressive, decoder-only Transformers generate text one token at a time, where a token represents a discrete unit of text. As each newly produced token is appended to the partial output sequence, the length grows and so does the memory and compute load, due to the expanding key-value caches, which store intermediate representations of all previously generated tokens in the multi-head attention (MHA) layer. As this iterative process steadily increases memory and compute demands, layer-based partitioning in resource-constrained edge environments often results in memory overload or high inference latency. To address this and reduce inference latency, we propose a resource-aware Transformer architecture partitioning algorithm, where the partitioning decision is updated at regular intervals during token generation. The approach is myopic in that it is based on instantaneous information about device resource availability and network link bandwidths. When first executed, the algorithm places blocks on devices, and in later executions, it migrates these blocks among devices so that the sum of migration delay and inference delay remains low. Our approach partitions the decoder at the attention head level, co-locating each attention head with its key-value cache and allowing dynamic migrations whenever resources become tight. By allocating different attention heads to different devices, we exploit parallel execution of attention heads and thus achieve substantial reductions in inference delays. Our experiments show that in small-scale settings (3-5 devices), the proposed method achieves within 15 to 20 percent of an exact optimal solver's latency, while in larger-scale tests it achieves notable improvements in inference speed and memory usage compared to state-of-the-art layer-based partitioning approaches.
- Abstract(参考訳): 自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。
新たに生成されたトークンが部分的な出力シーケンスに付加されると、メモリと計算負荷が増加し、キー値キャッシュが拡大し、前述したトークンの中間表現がマルチヘッドアテンション(MHA)層に格納される。
この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。
この問題に対処し、推論遅延を低減するために、トークン生成中に定期的に分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。
このアプローチは、デバイスリソースの可用性とネットワークリンク帯域幅に関する瞬時に情報に基づいており、ミオニックである。
最初に実行されると、アルゴリズムはデバイス上にブロックを配置し、その後の実行では、これらのブロックをデバイス間で移行し、移行遅延と推論遅延の総和を低くする。
当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。
異なるアテンションヘッドを異なるデバイスに割り当てることで、アテンションヘッドの並列実行を活用し、推論遅延を大幅に低減する。
実験により,提案手法は最適解解のレイテンシの15~20%以内の精度で実現可能である一方で,大規模試験では,最新技術を用いた分割手法と比較して,推論速度とメモリ使用率の顕著な向上が得られた。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。