Fugu-MT 論文翻訳(概要): Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs

論文の概要: Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs

arxiv url: http://arxiv.org/abs/2502.07823v1
Date: Mon, 10 Feb 2025 12:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.698103
Title: Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs
Title（参考訳）: eFPGA上のエッジ推論のための実行時可変Tsetlinマシン
Authors: Tousif Rahman, Gang Mao, Bob Pattison, Sidharth Maheshwari, Marcos Sartori, Adrian Wheeldon, Rishad Shafik, Alex Yakovlev,
Abstract要約: eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
参考スコア（独自算出の注目度）: 0.2294388534633318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embedded Field-Programmable Gate Arrays (eFPGAs) allow for the design of hardware accelerators of edge Machine Learning (ML) applications at a lower power budget compared with traditional FPGA platforms. However, the limited eFPGA logic and memory significantly constrain compute capabilities and model size. As such, ML application deployment on eFPGAs is in direct contrast with the most recent FPGA approaches developing architecture-specific implementations and maximizing throughput over resource frugality. This paper focuses on the opposite side of this trade-off: the proposed eFPGA accelerator focuses on minimizing resource usage and allowing flexibility for on-field recalibration over throughput. This allows for runtime changes in model size, architecture, and input data dimensionality without offline resynthesis. This is made possible through the use of a bitwise compressed inference architecture of the Tsetlin Machine (TM) algorithm. TM compute does not require any multiplication operations, being limited to only bitwise AND, OR, NOT, summations and additions. Additionally, TM model compression allows the entire model to fit within the on-chip block RAM of the eFPGA. The paper uses this accelerator to propose a strategy for runtime model tuning in the field. The proposed approach uses 2.5x fewer Look-up-Tables (LUTs) and 3.38x fewer registers than the current most resource-fugal design and achieves up to 129x energy reduction compared with low-power microcontrollers running the same ML application.
Abstract（参考訳）: 組み込みフィールドプログラマブルゲートアレイ(eFPGA)は、エッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを従来のFPGAプラットフォームと比較して低消費電力で設計することができる。しかし、限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限している。このように、eFPGA上でのMLアプリケーションのデプロイは、アーキテクチャ固有の実装を開発し、リソースの重大性よりもスループットを最大化する最近のFPGAアプローチとは直接的に対照的である。提案するeFPGAアクセラレータは,リソース使用量の最小化と,スループットに対するフィールド上のリカレーションの柔軟性の実現に重点を置いている。これにより、オフラインで再生成することなく、モデルサイズ、アーキテクチャ、入力データ次元のランタイム変更が可能になる。これは、Tsetlin Machine (TM)アルゴリズムのビットワイズ圧縮推論アーキテクチャを用いて実現されている。 TM計算は算術演算を一切必要とせず、ビットワイズ、OR、NOT、和、加算のみに制限される。さらに、TMモデル圧縮により、モデル全体がeFPGAのオンチップブロックRAMに収まる。本論文は,この加速器を用いて,現場における実行モデルチューニングの戦略を提案する。提案手法では、Look-up-Tables (LUTs) を2.5倍、レジスタを3.38倍小さくし、同じMLアプリケーションを実行する低消費電力マイクロコントローラと比較して最大129倍のエネルギー削減を実現している。

関連論文リスト

BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks [28.844098517315228]
BitLogicはFPGAネイティブニューラルネットワークのためのエンドツーエンドのトレーニング可能なフレームワークである。マルチ累積演算をFPGAプリミティブに直接マップする微分可能なLUTノードに置き換える。ネイティブバイナリ計算、疎結合、効率的なハードウェア実現を提供する。
論文参考訳（メタデータ） (2026-02-07T06:32:44Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文参考訳（メタデータ） (2023-03-30T08:25:27Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文参考訳（メタデータ） (2022-06-23T15:57:17Z)
Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices [6.335302509003343]
マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-03T16:06:08Z)
FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。 FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文参考訳（メタデータ） (2020-07-16T18:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。