Fugu-MT 論文翻訳(概要): A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization

論文の概要: A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization

arxiv url: http://arxiv.org/abs/2205.04665v1
Date: Tue, 10 May 2022 04:42:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-14 20:19:53.270189
Title: A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization
Title（参考訳）: A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization
Authors: Yu-Hsiang Chiang, Tian-Sheuan Chang and Shyh Jye Jou
Abstract要約: 本稿では,ユーザカスタマイズのためのオンチップ学習による低消費電力でエネルギー効率のキーワードスポッティングアクセラレータについて述べる。ユーザのカスタマイズにより、精度の損失を51.08%から89.76%に回復できる。チップの実装は、決定毎にわずか14$uJ$でモデルを実行することができる。
参考スコア（独自算出の注目度）: 0.10547353841674209
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Keyword spotting has gained popularity as a natural way to interact with consumer devices in recent years. However, because of its always-on nature and the variety of speech, it necessitates a low-power design as well as user customization. This paper describes a low-power, energy-efficient keyword spotting accelerator with SRAM based in-memory computing (IMC) and on-chip learning for user customization. However, IMC is constrained by macro size, limited precision, and non-ideal effects. To address the issues mentioned above, this paper proposes bias compensation and fine-tuning using an IMC-aware model design. Furthermore, because learning with low-precision edge devices results in zero error and gradient values due to quantization, this paper proposes error scaling and small gradient accumulation to achieve the same accuracy as ideal model training. The simulation results show that with user customization, we can recover the accuracy loss from 51.08\% to 89.76\% with compensation and fine-tuning and further improve to 96.71\% with customization. The chip implementation can successfully run the model with only 14$uJ$ per decision. When compared to the state-of-the-art works, the presented design has higher energy efficiency with additional on-chip model customization capabilities for higher accuracy.
Abstract（参考訳）: 近年、キーワードスポッティングは消費者デバイスと対話する自然な方法として人気が高まっている。しかし、常にオンになっている性質と音声の多様性から、低消費電力なデザインとユーザーカスタマイズが必要となる。本稿では,SRAMベースのインメモリコンピューティング(IMC)とユーザカスタマイズのためのオンチップ学習を用いた低消費電力,エネルギー効率のキーワードスポッティングアクセラレータについて述べる。しかし、IMCはマクロサイズ、限られた精度、非理想効果に制約されている。上記の問題に対処するために,IMC対応モデル設計を用いたバイアス補償と微調整を提案する。さらに,低精度エッジデバイスを用いた学習では量子化による誤差や勾配値がゼロとなるため,誤差スケーリングと小さな勾配蓄積を提案し,理想的なモデルトレーニングと同じ精度を実現する。シミュレーションの結果,ユーザのカスタマイズにより,補正と微調整により精度損失を51.08\%から89.76\%に回復し,カスタマイズにより96.71\%に改善できることがわかった。チップの実装は、決定当たり14ドルuj$でモデルの実行を成功させる。最新技術と比較すると、より高精度なオンチップモデルカスタマイズ機能を備えた高効率な設計となる。

関連論文リスト

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
FGMP: Fine-Grained Mixed-Precision Weight and Activation Quantization for Hardware-Accelerated LLM Inference [25.6644057021512]
量子化は、大きな言語モデル(LLM)推論効率を改善する強力なツールである。 LLM重みとアクティベーションを高精度に定量化することは、モデルの精度を劣化させることなく困難である。ハードウェア-ソフトウェア共設計手法であるFGMP量子化法を提案する。
論文参考訳（メタデータ） (2025-04-19T02:51:45Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
Improved Adaboost Algorithm for Web Advertisement Click Prediction Based on Long Short-Term Memory Networks [2.7959678888027906]
本稿では,Long Short-Term Memory Networks (LSTM) に基づくAdaboostアルゴリズムの改良について検討する。いくつかの一般的な機械学習アルゴリズムと比較することにより、広告クリック予測における新しいモデルの利点を分析する。提案手法は,ユーザの広告クリック予測において92%の精度で良好に動作することを示す。
論文参考訳（メタデータ） (2024-08-08T03:27:02Z)
LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文参考訳（メタデータ） (2024-07-19T20:19:41Z)
Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2023-12-14T15:24:42Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文参考訳（メタデータ） (2022-05-30T21:23:22Z)
How Low Can We Go: Trading Memory for Error in Low-Precision Training [52.94003953419242]
低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。私たちは貯金の代償を支払っている: 精度の低い方がラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。私たちはメタラーニングのアイデアを借りて、メモリとエラーのトレードオフを学びます。
論文参考訳（メタデータ） (2021-06-17T17:38:07Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文参考訳（メタデータ） (2020-11-09T05:22:57Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。