Fugu-MT 論文翻訳(概要): On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

論文の概要: On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

arxiv url: http://arxiv.org/abs/2504.17376v1
Date: Thu, 24 Apr 2025 08:50:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.305182
Title: On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration
Title（参考訳）: オンデバイスQwen2.5:モデル圧縮とハードウェアアクセラレーションによる効率的なLCM推論
Authors: Maoyang Xiang, Ramesh Fernando, Bo Wang,
Abstract要約: 本稿では,Xilinx Kria KV260エッジプラットフォーム上にQwen2.5-0.5Bモデルをデプロイするための効率的なフレームワークを提案する。我々は,計算集約的な演算をFPGAにインテリジェントにオフロードし,CPUを軽量なタスクに活用するハイブリッド実行戦略を提案する。本フレームワークは,従来のモデルと比較して55.08%のモデル圧縮率を実現し,5.1トークン/秒で出力し,2.8トークン/秒のベースライン性能を上回った。
参考スコア（独自算出の注目度）: 1.9965524232168244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based Large Language Models (LLMs) have significantly advanced AI capabilities but pose considerable challenges for deployment on edge devices due to high computational demands, memory bandwidth constraints, and energy consumption. This paper addresses these challenges by presenting an efficient framework for deploying the Qwen2.5-0.5B model on the Xilinx Kria KV260 edge platform, a heterogeneous system integrating an ARM Cortex-A53 CPU with reconfigurable FPGA logic. Leveraging Activation-aware Weight Quantization (AWQ) with FPGA-accelerated execution pipelines, the proposed approach enhances both model compression rate and system throughput. Additionally, we propose a hybrid execution strategy that intelligently offloads compute-intensive operations to the FPGA while utilizing the CPU for lighter tasks, effectively balancing the computational workload and maximizing overall performance. Our framework achieves a model compression rate of 55.08% compared to the original model and produces output at a rate of 5.1 tokens per second, outperforming the baseline performance of 2.8 tokens per second.
Abstract（参考訳）: トランスフォーマーベースのLarge Language Models (LLM) は、AI能力が大幅に向上するが、高い計算要求、メモリ帯域幅の制約、エネルギー消費などにより、エッジデバイスへのデプロイには大きな課題が生じる。本稿では、ARM Cortex-A53 CPUを再構成可能なFPGAロジックと統合した異種システムであるXilinx Kria KV260エッジプラットフォーム上にQwen2.5-0.5Bモデルをデプロイするための効率的なフレームワークを提案する。 FPGA高速化実行パイプラインによるアクティベーション対応重み量子化(AWQ)を活用することにより,モデル圧縮率とシステムスループットを向上する。さらに、計算集約的な演算をFPGAにインテリジェントにオフロードし、CPUを軽量なタスクに利用し、計算負荷のバランスを効果的に調整し、全体的な性能を最大化するハイブリッド実行戦略を提案する。本フレームワークは,従来のモデルと比較して55.08%のモデル圧縮率を実現し,5.1トークン/秒で出力し,2.8トークン/秒のベースライン性能を上回った。

関連論文リスト

FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design [5.4815337424005355]
視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。メモリと計算コストを削減するため、VARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQvarを提案する。 AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
論文参考訳（メタデータ） (2025-05-22T07:47:51Z)
AccLLM: Accelerating Long-Context LLM Inference Via Algorithm-Hardware Co-Design [3.64182026498686]
大規模言語モデル(LLM)は自然言語処理(NLP)分野で大きな成功を収めている。 AccLLM は,高速かつ効率的な長文 LLM 推論を実現する包括的アクセラレーションフレームワークである。我々は、Xilinx Alveo U280 FPGA上でAccLLMを検証し、エネルギー効率が4.07倍、スループットが2.98倍であることを示す。
論文参考訳（メタデータ） (2025-04-07T02:52:30Z)
Design and Implementation of an FPGA-Based Tiled Matrix Multiplication Accelerator for Transformer Self-Attention on the Xilinx KV260 SoM [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文参考訳（メタデータ） (2025-03-20T22:15:42Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
Standalone FPGA-Based QAOA Emulator for Weighted-MaxCut on Embedded Devices [3.384874651944418]
本研究は,組み込みシステムのための,コンパクトでスタンドアロンなFPGAベースのQCエミュレータを提案する。提案した設計は、時間複雑性を O(N2) から O(N) に還元する。エミュレータは2キュービット構成の1.53倍から9キュービット構成の852倍までの省エネを実現した。
論文参考訳（メタデータ） (2025-02-16T23:30:16Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文参考訳（メタデータ） (2022-04-22T21:57:00Z)
VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。 FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文参考訳（メタデータ） (2022-01-17T20:27:52Z)
FantastIC4: A Hardware-Software Co-Design Approach for Efficiently Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文参考訳（メタデータ） (2020-12-17T19:10:04Z)
FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。 FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文参考訳（メタデータ） (2020-07-16T18:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。