論文の概要: An All-digital 65-nm Tsetlin Machine Image Classification Accelerator with 8.6 nJ per MNIST Frame at 60.3k Frames per Second
- arxiv url: http://arxiv.org/abs/2501.19347v1
- Date: Fri, 31 Jan 2025 17:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:13.152977
- Title: An All-digital 65-nm Tsetlin Machine Image Classification Accelerator with 8.6 nJ per MNIST Frame at 60.3k Frames per Second
- Title(参考訳): MNISTフレームあたり8.6nJの1秒あたり60.3kフレームで全ディジタル65nmTsetlinマシン画像分類加速器
- Authors: Svein Anders Tunheim, Yujin Zheng, Lei Jiao, Rishad Shafik, Alex Yakovlev, Ole-Christoffer Granmo,
- Abstract要約: 画像分類のための全デジタルプログラマブル機械学習アクセラレーターチップを提案する。
TMは命題論理に基づいて構築された機械学習アルゴリズムで、節と呼ばれるサブパターン認識式を利用する。
加速器は毎秒60.3kの分類を達成し、1回あたり8.6nJを消費する。
- 参考スコア(独自算出の注目度): 13.094334287461376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an all-digital programmable machine learning accelerator chip for image classification, underpinning on the Tsetlin machine (TM) principles. The TM is a machine learning algorithm founded on propositional logic, utilizing sub-pattern recognition expressions called clauses. The accelerator implements the coalesced TM version with convolution, and classifies booleanized images of 28$\times$28 pixels with 10 categories. A configuration with 128 clauses is used in a highly parallel architecture. Fast clause evaluation is obtained by keeping all clause weights and Tsetlin automata (TA) action signals in registers. The chip is implemented in a 65 nm low-leakage CMOS technology, and occupies an active area of 2.7mm$^2$. At a clock frequency of 27.8 MHz, the accelerator achieves 60.3k classifications per second, and consumes 8.6 nJ per classification. The latency for classifying a single image is 25.4 $\mu$s which includes system timing overhead. The accelerator achieves 97.42%, 84.54% and 82.55% test accuracies for the datasets MNIST, Fashion-MNIST and Kuzushiji-MNIST, respectively, matching the TM software models.
- Abstract(参考訳): 本稿では,Tsetlin Machine (TM) の原理を基礎として,画像分類のための全デジタルプログラマブル機械学習アクセラレーターチップを提案する。
TMは命題論理に基づいて構築された機械学習アルゴリズムで、節と呼ばれるサブパターン認識式を利用する。
この加速器はコンボリューションと合体したTMバージョンを実装し、28$\times$28ピクセルのブール化画像を10カテゴリで分類する。
128節のコンフィギュレーションは、非常に並列なアーキテクチャで使用される。
すべての節重みとTsetlin Automatica(TA)アクション信号をレジスタに保持することにより、高速な節評価が得られる。
このチップは65nmの低遅延CMOS技術で実装されており、アクティブ領域は2.7mm$^2$である。
27.8MHzのクロック周波数で、加速器は毎秒60.3kの分類を達成し、1秒あたり8.6nJを消費する。
単一のイメージを分類するレイテンシは25.4$\mu$sであり、システムタイミングのオーバーヘッドを含む。
このアクセラレーターは、MNIST、Fashion-MNIST、Kuzushiji-MNISTの各データセットに対する97.42%、84.54%、および82.55%のテスト精度をTMソフトウェアモデルと一致させて達成している。
関連論文リスト
- Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs [0.3440236962613469]
本稿では,Deep Neural Networks (DNN) の代替として,動的Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。
DTMは、より少ない乗算累積で微分計算を欠いた訓練を行う。
提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
論文 参考訳(メタデータ) (2025-04-28T13:38:53Z) - TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - A 71.2-$μ$W Speech Recognition Accelerator with Recurrent Spiking Neural Network [0.0502254944841629]
本稿では,2つの繰り返し層と1つの完全連結層,低時間ステップを有する小型の繰り返しスパイクニューラルネットワークを提案する。
2.79MBモデルでは、プルーニングと4ビットの固定点量子化が行われ、96.42%から0.1MBに縮小した。
このデザインは100kHzでリアルタイムに動作し、71.2 mu$Wを消費し、最先端の設計を上回っている。
論文 参考訳(メタデータ) (2025-03-27T10:14:00Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Token Turing Machines are Efficient Vision Models [3.1560513857564834]
ViTTM(Vision Token Turing Machines)を提案する。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-11T20:50:41Z) - DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM [16.1102923955667]
本稿では,音声制御デバイスを対象としたDelta$RNN対応時空間細粒度対応KWS ICについて紹介する。
87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに減少する。
論文 参考訳(メタデータ) (2024-05-06T23:41:02Z) - SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [91.91385816767057]
オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。
オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。
SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
論文 参考訳(メタデータ) (2023-11-27T05:00:38Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。