論文の概要: Efficient FPGA Implementation of Time-Domain Popcount for Low-Complexity Machine Learning
- arxiv url: http://arxiv.org/abs/2505.02181v1
- Date: Sun, 04 May 2025 16:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.473179
- Title: Efficient FPGA Implementation of Time-Domain Popcount for Low-Complexity Machine Learning
- Title(参考訳): 低複雑さ機械学習のための時間領域集団のFPGAによる効率的な実装
- Authors: Shengyu Duan, Marcos L. L. Sartori, Rishad Shafik, Alex Yakovlev, Emre Ozer,
- Abstract要約: 人口数(人口数)は多くの低複雑性機械学習(ML)アルゴリズムにとって重要な操作である。
本稿では,これらの操作を時間領域で実行することで高速化し,最適化する革新的な手法を提案する。
- 参考スコア(独自算出の注目度): 0.2663045001864042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Population count (popcount) is a crucial operation for many low-complexity machine learning (ML) algorithms, including Tsetlin Machine (TM)-a promising new ML method, particularly well-suited for solving classification tasks. The inference mechanism in TM consists of propositional logic-based structures within each class, followed by a majority voting scheme, which makes the classification decision. In TM, the voters are the outputs of Boolean clauses. The voting mechanism comprises two operations: popcount for each class and determining the class with the maximum vote by means of an argmax operation. While TMs offer a lightweight ML alternative, their performance is often limited by the high computational cost of popcount and comparison required to produce the argmax result. In this paper, we propose an innovative approach to accelerate and optimize these operations by performing them in the time domain. Our time-domain implementation uses programmable delay lines (PDLs) and arbiters to efficiently manage these tasks through delay-based mechanisms. We also present an FPGA design flow for practical implementation of the time-domain popcount, addressing delay skew and ensuring that the behavior matches that of the model's intended functionality. By leveraging the natural compatibility of the proposed popcount with asynchronous architectures, we demonstrate significant improvements in an asynchronous TM, including up to 38% reduction in latency, 43.1% reduction in dynamic power, and 15% savings in resource utilization, compared to synchronous TMs using adder-based popcount.
- Abstract(参考訳): 人口カウント(popcount)は、多くの低複雑性機械学習(ML)アルゴリズムにとって重要な操作であり、特に分類タスクの解決に適した、有望な新しいML手法であるTsetlin Machine(TM)を含む。
TMにおける推論機構は、各クラス内の命題論理に基づく構造から成り、次に多数決方式により分類決定を行う。
TMでは、有権者はブール節の出力である。
投票機構は、各クラスに対するポップカウントと、argmax操作により最大投票でクラスを決定する2つの操作からなる。
TMは軽量なML代替手段を提供するが、その性能は高い計算コストとargmax結果の生成に必要な比較によって制限されることが多い。
本稿では,時間領域における動作を高速化し,最適化する革新的な手法を提案する。
我々の時間領域の実装では、プログラマブル遅延ライン(PDL)とアービタを使用して、遅延ベースのメカニズムによってこれらのタスクを効率的に管理しています。
また,時間領域のポップカウントを実用的に実装するためのFPGA設計フローを提案し,遅延スキューに対処し,その動作がモデルが意図する機能と一致することを保証する。
提案したPopcountと非同期アーキテクチャとの自然な互換性を活用することで,最大38%のレイテンシ削減,43.1%の動的電力削減,15%のリソース利用削減など,非同期TMの大幅な改善が示された。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.155429544207827]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える新しいスケジューリングアルゴリズムを提案する。
我々の成果は、より持続的で費用対効果の高いLLMデプロイメントへの道筋を提供する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。