Fugu-MT 論文翻訳(概要): Designing Efficient LLM Accelerators for Edge Devices

論文の概要: Designing Efficient LLM Accelerators for Edge Devices

arxiv url: http://arxiv.org/abs/2408.00462v1
Date: Thu, 1 Aug 2024 11:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 20:56:07.828762
Title: Designing Efficient LLM Accelerators for Edge Devices
Title（参考訳）: エッジデバイスのための効率的なLDM加速器の設計
Authors: Jude Haris, Rappy Saha, Wenhao Hu, José Cano,
Abstract要約: 大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
参考スコア（独自算出の注目度）: 1.4128048241287314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increase in open-source availability of Large Language Models (LLMs) has enabled users to deploy them on more and more resource-constrained edge devices to reduce reliance on network connections and provide more privacy. However, the high computation and memory demands of LLMs make their execution on resource-constrained edge devices challenging and inefficient. To address this issue, designing new and efficient edge accelerators for LLM inference is crucial. FPGA-based accelerators are ideal for LLM acceleration due to their reconfigurability, as they enable model-specific optimizations and higher performance per watt. However, creating and integrating FPGA-based accelerators for LLMs (particularly on edge devices) has proven challenging, mainly due to the limited hardware design flows for LLMs in existing FPGA platforms. To tackle this issue, in this paper we first propose a new design platform, named SECDA-LLM, that utilizes the SECDA methodology to streamline the process of designing, integrating, and deploying efficient FPGA-based LLM accelerators for the llama.cpp inference framework. We then demonstrate, through a case study, the potential benefits of SECDA-LLM by creating a new MatMul accelerator that supports block floating point quantized operations for LLMs. Our initial accelerator design, deployed on the PYNQ-Z1 board, reduces latency 1.7 seconds per token or ~2 seconds per word) by 11x over the dual-core Arm NEON-based CPU execution for the TinyLlama model.
Abstract（参考訳）: LLM(Large Language Models)のオープンソース可用性の向上により、ネットワーク接続への依存を低減し、より多くのプライバシを提供するために、より多くのリソース制約のあるエッジデバイスにデプロイできるようになった。しかし、LLMの高計算とメモリ要求により、リソース制約のあるエッジデバイス上での実行は困難で非効率である。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。 FPGAベースの加速器は、モデル固有の最適化とワット当たりの性能向上を可能にするため、再構成性のためにLLM加速に最適である。しかし、FPGAベースのLLM用アクセラレータ(特にエッジデバイス)の作成と統合は、主に既存のFPGAプラットフォームにおけるLLMのハードウェア設計フローが限られているため、難しいことが証明されている。この問題に対処するため,本研究では, SECDA 手法を用いて FPGA ベースの LLM アクセラレータを llama.cpp 推論フレームワーク向けに設計, 統合, 展開するプロセスの効率化を図る新しい設計プラットフォーム SECDA-LLM を提案する。次に, LLMの浮動小数点量子化演算をブロックするMatMulアクセラレータを新たに構築することで, SECDA-LLMの潜在的なメリットを実証する。 PYNQ-Z1ボード上にデプロイされた初期アクセラレータ設計では,TinyLlamaモデル用のデュアルコアArm NEONベースのCPU実行に対して,トークン当たり1.7秒,ワードあたり約2秒)のレイテンシを11倍に削減しています。

関連論文リスト

Accelerating Post-Quantum Cryptography via LLM-Driven Hardware-Software Co-Design [4.129225533930966]
量子後暗号(PQC)は、出現する量子脅威に対するデータ保護に不可欠である。 LLMは、PQCアルゴリズムのFPGAアクセラレータ設計を自動化することで、設計の労力と開発時間を最小化することができる。
論文参考訳（メタデータ） (2026-02-10T04:56:08Z)
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文参考訳（メタデータ） (2025-11-24T08:46:36Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
F-BFQ: Flexible Block Floating-Point Quantization Accelerator for LLMs [0.6302369456012739]
大きな言語モデル(LLM)は日々のタスクでますます顕著になっている。 LLMはリソース制約のあるエッジデバイス上で実行できる。 LLMは通常、モデル層をまたいだ混合BFP量子化によって定量化される。
論文参考訳（メタデータ） (2025-10-15T10:56:37Z)
TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。 1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。 5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文参考訳（メタデータ） (2025-10-03T05:37:51Z)
AccLLM: Accelerating Long-Context LLM Inference Via Algorithm-Hardware Co-Design [3.64182026498686]
大規模言語モデル(LLM)は自然言語処理(NLP)分野で大きな成功を収めている。 AccLLM は,高速かつ効率的な長文 LLM 推論を実現する包括的アクセラレーションフレームワークである。我々は、Xilinx Alveo U280 FPGA上でAccLLMを検証し、エネルギー効率が4.07倍、スループットが2.98倍であることを示す。
論文参考訳（メタデータ） (2025-04-07T02:52:30Z)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文参考訳（メタデータ） (2025-01-14T15:14:10Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-11-11T02:48:00Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文参考訳（メタデータ） (2024-06-16T11:56:50Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。 LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-01T13:08:50Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。