論文の概要: A Low-Power Streaming Speech Enhancement Accelerator For Edge Devices
- arxiv url: http://arxiv.org/abs/2503.21335v1
- Date: Thu, 27 Mar 2025 10:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:11.913176
- Title: A Low-Power Streaming Speech Enhancement Accelerator For Edge Devices
- Title(参考訳): エッジデバイス用低電力ストリーミング音声強調加速器
- Authors: Ci-Hao Wu, Tian-Sheuan Chang,
- Abstract要約: トランスフォーマーに基づく音声強調モデルは印象的な結果をもたらすが、その構造はモデル圧縮電位を制限する。
本稿では,モデルとハードウェア最適化による低消費電力ストリーミング音声強調器を提案する。
提案する高性能モデルは,モデル圧縮とターゲットアプリケーションの共同設計によるハードウェア実行に最適化されている。
- 参考スコア(独自算出の注目度): 0.0502254944841629
- License:
- Abstract: Transformer-based speech enhancement models yield impressive results. However, their heterogeneous and complex structure restricts model compression potential, resulting in greater complexity and reduced hardware efficiency. Additionally, these models are not tailored for streaming and low-power applications. Addressing these challenges, this paper proposes a low-power streaming speech enhancement accelerator through model and hardware optimization. The proposed high performance model is optimized for hardware execution with the co-design of model compression and target application, which reduces 93.9\% of model size by the proposed domain-aware and streaming-aware pruning techniques. The required latency is further reduced with batch normalization-based transformers. Additionally, we employed softmax-free attention, complemented by an extra batch normalization, facilitating simpler hardware design. The tailored hardware accommodates these diverse computing patterns by breaking them down into element-wise multiplication and accumulation (MAC). This is achieved through a 1-D processing array, utilizing configurable SRAM addressing, thereby minimizing hardware complexities and simplifying zero skipping. Using the TSMC 40nm CMOS process, the final implementation requires merely 207.8K gates and 53.75KB SRAM. It consumes only 8.08 mW for real-time inference at a 62.5MHz frequency.
- Abstract(参考訳): トランスフォーマーに基づく音声強調モデルは印象的な結果をもたらす。
しかし、その不均一で複雑な構造はモデル圧縮ポテンシャルを制限し、結果として複雑さが増し、ハードウェア効率が低下する。
さらに、これらのモデルはストリーミングや低消費電力アプリケーションに向いていない。
これらの課題に対処するため,本研究では,モデルおよびハードウェア最適化による低消費電力ストリーミング音声強調器を提案する。
提案したハイパフォーマンスモデルは,モデル圧縮とターゲットアプリケーションの共同設計によりハードウェア実行に最適化され,提案したドメイン認識およびストリーミング認識プルーニング技術により,モデルサイズを93.9%削減する。
必要なレイテンシは、バッチ正規化ベースの変換器によってさらに削減される。
さらに、バッチの正規化を補うソフトマックスフリーの注意を取り入れ、より単純なハードウェア設計を容易にした。
カスタマイズされたハードウェアは、要素の乗算と蓄積(MAC)に分解することで、これらの多様なコンピューティングパターンに対応している。
これは1次元処理アレイによって実現され、構成可能なSRAMアドレッシングを利用して、ハードウェアの複雑さを最小化し、スキップを単純化する。
TSMC 40nm CMOSプロセスを使用することで、最終的な実装には207.8Kゲートと53.75KB SRAMしか必要としない。
周波数62.5MHzのリアルタイム推論では8.08mWしか消費しない。
関連論文リスト
- Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices [7.229732269884237]
本稿では,資源制約エッジデバイスのための小型かつ効率的な機械学習モデル(TinyML)を提案する。
この研究は、量子化と知識蒸留を含むモデル圧縮技術に焦点を当て、モデルサイズを大幅に削減する。
これらのTinyMLモデルの医療への応用は、患者のモニタリングに革命をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-12T13:59:21Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation [61.22401987355781]
近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
我々は、ICMHのための新しい軽量なアダプタベースのチューニングフレームワーク、Adapt-ICMHを開発した。
論文 参考訳(メタデータ) (2024-07-13T11:22:41Z) - ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文 参考訳(メタデータ) (2023-07-07T10:05:38Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Hardware-Robust In-RRAM-Computing for Object Detection [0.15113576014047125]
In-RRAMコンピューティングは、ハードウェアにおいて大きなデバイスバリエーションと多くの非理想的効果に悩まされた。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
提案手法は3.85%のmAP降下しか持たない複雑な物体検出タスクにうまく適用されている。
論文 参考訳(メタデータ) (2022-05-09T01:46:24Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。