Fugu-MT 論文翻訳(概要): Large Language Model Partitioning for Low-Latency Inference at the Edge

論文の概要: Large Language Model Partitioning for Low-Latency Inference at the Edge

arxiv url: http://arxiv.org/abs/2505.02533v1
Date: Mon, 05 May 2025 10:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.646881
Title: Large Language Model Partitioning for Low-Latency Inference at the Edge
Title（参考訳）: エッジにおける低レイテンシ推論のための大規模言語モデル分割
Authors: Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos,
Abstract要約: 自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。本稿では,トークン生成時に一定間隔で分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。
参考スコア（独自算出の注目度）: 6.019511429258932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) based on autoregressive, decoder-only Transformers generate text one token at a time, where a token represents a discrete unit of text. As each newly produced token is appended to the partial output sequence, the length grows and so does the memory and compute load, due to the expanding key-value caches, which store intermediate representations of all previously generated tokens in the multi-head attention (MHA) layer. As this iterative process steadily increases memory and compute demands, layer-based partitioning in resource-constrained edge environments often results in memory overload or high inference latency. To address this and reduce inference latency, we propose a resource-aware Transformer architecture partitioning algorithm, where the partitioning decision is updated at regular intervals during token generation. The approach is myopic in that it is based on instantaneous information about device resource availability and network link bandwidths. When first executed, the algorithm places blocks on devices, and in later executions, it migrates these blocks among devices so that the sum of migration delay and inference delay remains low. Our approach partitions the decoder at the attention head level, co-locating each attention head with its key-value cache and allowing dynamic migrations whenever resources become tight. By allocating different attention heads to different devices, we exploit parallel execution of attention heads and thus achieve substantial reductions in inference delays. Our experiments show that in small-scale settings (3-5 devices), the proposed method achieves within 15 to 20 percent of an exact optimal solver's latency, while in larger-scale tests it achieves notable improvements in inference speed and memory usage compared to state-of-the-art layer-based partitioning approaches.
Abstract（参考訳）: 自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。新たに生成されたトークンが部分的な出力シーケンスに付加されると、メモリと計算負荷が増加し、キー値キャッシュが拡大し、前述したトークンの中間表現がマルチヘッドアテンション(MHA)層に格納される。この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。この問題に対処し、推論遅延を低減するために、トークン生成中に定期的に分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。このアプローチは、デバイスリソースの可用性とネットワークリンク帯域幅に関する瞬時に情報に基づいており、ミオニックである。最初に実行されると、アルゴリズムはデバイス上にブロックを配置し、その後の実行では、これらのブロックをデバイス間で移行し、移行遅延と推論遅延の総和を低くする。当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。異なるアテンションヘッドを異なるデバイスに割り当てることで、アテンションヘッドの並列実行を活用し、推論遅延を大幅に低減する。実験により,提案手法は最適解解のレイテンシの15～20%以内の精度で実現可能である一方で,大規模試験では,最新技術を用いた分割手法と比較して,推論速度とメモリ使用率の顕著な向上が得られた。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices [11.05223262950967]
音声認識ソフトウェアは、リソースを意識した推論中にニューラルネットワークの計算負荷を調整する必要がある。早期の外部アーキテクチャは、入力をレイヤのサブセットで処理し、中間ブランチで終了する。自動音声認識アプリケーションには、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャがある。このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えて大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-22T13:34:18Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文参考訳（メタデータ） (2024-11-20T19:44:26Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。 FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文参考訳（メタデータ） (2024-10-16T12:45:35Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文参考訳（メタデータ） (2024-04-08T16:34:35Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文参考訳（メタデータ） (2021-07-14T19:45:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。