論文の概要: Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition
- arxiv url: http://arxiv.org/abs/2112.07011v1
- Date: Mon, 13 Dec 2021 21:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:58:44.924214
- Title: Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition
- Title(参考訳): 聴覚特徴抽出のためのイベントベース時間ベクトル--低電力音声認識のためのニューロモルフィックアプローチ
- Authors: Marco Rasetto, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez and
Ryad Benosman
- Abstract要約: 教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
- 参考スコア(独自算出の注目度): 4.206844212918807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years tremendous efforts have been done to advance the state of the
art for Natural Language Processing (NLP) and audio recognition. However, these
efforts often translated in increased power consumption and memory requirements
for bigger and more complex models. These solutions falls short of the
constraints of IoT devices which need low power, low memory efficient
computation, and therefore they fail to meet the growing demand of efficient
edge computing. Neuromorphic systems have proved to be excellent candidates for
low-power low-latency computation in a multitude of applications. For this
reason we present a neuromorphic architecture, capable of unsupervised auditory
feature recognition. We then validate the network on a subset of Google's
Speech Commands dataset.
- Abstract(参考訳): 近年,自然言語処理技術(nlp)と音声認識技術の発展に向けて,多大な努力がなされている。
しかし、これらの取り組みは、より大きな複雑なモデルに対する電力消費とメモリ要求の増加にしばしば変換された。
これらのソリューションは、低消費電力でメモリ効率の低い計算を必要とするIoTデバイスの制約を欠いているため、効率的なエッジコンピューティングの需要が増大するのに失敗する。
ニューロモルフィックシステムは、様々な応用において低消費電力低レイテンシ計算の優れた候補であることが証明されている。
そこで我々は,教師なし聴覚特徴認識が可能なニューロモルフィック・アーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Neural Architecture Search for Energy Efficient Always-on Audio Models [1.3846912186423144]
我々は,ニューラルネットワーク検索(NAS)にいくつかの変更を加えて,現実的な状況における成功の可能性を改善する。
実際のハードウェアで検索のパフォーマンスをベンチマークするが、実際のハードウェアで何千ものテストを実行することは難しいため、ランダムなフォレストモデルを用いて、候補ネットワークのエネルギー使用量を概ね予測する。
その結果,AudioSetをベースとした音響イベント分類データセットを用いて,推定毎のエネルギーの桁違いが小さく,メモリフットプリントもはるかに小さくなった。
論文 参考訳(メタデータ) (2022-02-09T06:10:18Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。