論文の概要: Chameleon: A MatMul-Free Temporal Convolutional Network Accelerator for End-to-End Few-Shot and Continual Learning from Sequential Data
- arxiv url: http://arxiv.org/abs/2505.24852v1
- Date: Fri, 30 May 2025 17:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.11401
- Title: Chameleon: A MatMul-Free Temporal Convolutional Network Accelerator for End-to-End Few-Shot and Continual Learning from Sequential Data
- Title(参考訳): Chameleon: エンド・ツー・エンドのFew-Shotとシークエンシャルデータによる連続学習のためのMateMulフリーの時間畳み込みネットワーク加速器
- Authors: Douwe den Blanken, Charlotte Frenkel,
- Abstract要約: エッジでのデバイス上での学習により、低レイテンシ、長期的な堅牢性の向上とメンテナンスコストの削減による個人化が可能になる。
スケーラブルで低消費電力のエンド・ツー・エンドのオン・チップ・ラーニングを実現するには、特に実世界のシーケンシャルなデータに限られた数のサンプルを組み込むことは、オープンな課題である。
Chameleonを紹介します。これらの課題を解決するために3つの重要なコントリビューションを活用します。
- 参考スコア(独自算出の注目度): 0.15178034047411867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device learning at the edge enables low-latency, private personalization with improved long-term robustness and reduced maintenance costs. Yet, achieving scalable, low-power end-to-end on-chip learning, especially from real-world sequential data with a limited number of examples, is an open challenge. Indeed, accelerators supporting error backpropagation optimize for learning performance at the expense of inference efficiency, while simplified learning algorithms often fail to reach acceptable accuracy targets. In this work, we present Chameleon, leveraging three key contributions to solve these challenges. (i) A unified learning and inference architecture supports few-shot learning (FSL), continual learning (CL) and inference at only 0.5% area overhead to the inference logic. (ii) Long temporal dependencies are efficiently captured with temporal convolutional networks (TCNs), enabling the first demonstration of end-to-end on-chip FSL and CL on sequential data and inference on 16-kHz raw audio. (iii) A dual-mode, matrix-multiplication-free compute array allows either matching the power consumption of state-of-the-art inference-only keyword spotting (KWS) accelerators or enabling $4.3\times$ higher peak GOPS. Fabricated in 40-nm CMOS, Chameleon sets new accuracy records on Omniglot for end-to-end on-chip FSL (96.8%, 5-way 1-shot, 98.8%, 5-way 5-shot) and CL (82.2% final accuracy for learning 250 classes with 10 shots), while maintaining an inference accuracy of 93.3% on the 12-class Google Speech Commands dataset at an extreme-edge power budget of 3.1 $\mu$W.
- Abstract(参考訳): エッジでのデバイス上での学習により、低レイテンシ、長期的な堅牢性の向上とメンテナンスコストの削減による個人化が可能になる。
しかし、スケーラブルで低消費電力のエンド・ツー・エンド・チップ・ラーニングを実現するには、特に実世界のシーケンシャルなデータに限られた例があるため、オープンな課題である。
実際、エラーのバックプロパゲーションをサポートするアクセラレーターは推論効率を犠牲にして学習性能を最適化する一方、単純化された学習アルゴリズムは許容できる精度の目標に達しないことが多い。
本稿では、これらの課題を解決するために3つの重要な貢献を生かしたChameleonを紹介します。
二 統合学習及び推論アーキテクチャは、推論ロジックにわずか0.5%のオーバーヘッドで、少数ショット学習(FSL)、連続学習(CL)、および推論をサポートする。
(II)時間的依存関係を時間的畳み込みネットワーク(TCN)で効率よく捕捉し,16kHzの生音声の逐次的データと推測に基づいて,エンド・ツー・エンドのFSLとCLのデモを行う。
三 二重モードの行列乗算不要な計算アレイは、最先端の推論専用キーワードスポッティング(KWS)アクセラレーターの消費電力に一致するか、4.3\times$高ピークGOPSが可能である。
40nm CMOSで作製されたChameleonは、Omniglotの新しい精度記録を、エンド・ツー・エンドのFSL(96.8%、5-way 1-shot、98.8%、5-way 5-shot)とCL(82.2%)に設定し、12クラスのGoogle Speech Commandsデータセットの予測精度は3.1$Wで93.3%を維持した。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - FSL-HDnn: A 5.7 TOPS/W End-to-end Few-shot Learning Classifier Accelerator with Feature Extraction and Hyperdimensional Computing [8.836803844185619]
FSL-HDnnは、特徴抽出、分類、チップ上の数発学習のエンドツーエンドパイプラインを実装するエネルギー効率の高いアクセラレータである。
軽量クラスタリング機能抽出器と超次元コンピューティングの2つの低消費電力モジュールを統合している。
特徴1抽出には5.7TOPS/W、分類と学習には0.78TOPS/Wのエネルギー効率を達成している。
論文 参考訳(メタデータ) (2024-09-17T06:23:12Z) - Accelerating Depthwise Separable Convolutions on Ultra-Low-Power Devices [10.733902200950872]
分離可能な畳み込みブロックを構成する深さと点の異なるカーネルを融合させる方法を模索する。
我々のアプローチは、異なるデータレイアウトを組み合わせることで、メモリ転送に要する時間を最小化することを目的としている。
論文 参考訳(メタデータ) (2024-06-18T10:32:40Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Human Activity Recognition on Microcontrollers with Quantized and
Adaptive Deep Neural Networks [10.195581493173643]
慣性データに基づくヒューマンアクティビティ認識(HAR)は、組み込みデバイス上でますます普及しているタスクである。
ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。
本研究は,汎用マイクロコントローラ(MCU)上に展開可能な1次元畳み込みニューラルネットワーク(CNN)の集合を提案する。
論文 参考訳(メタデータ) (2022-09-02T06:32:11Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。