論文の概要: Fast frequency discrimination and phoneme recognition using a biomimetic
membrane coupled to a neural network
- arxiv url: http://arxiv.org/abs/2004.04459v1
- Date: Thu, 9 Apr 2020 10:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 03:29:14.184551
- Title: Fast frequency discrimination and phoneme recognition using a biomimetic
membrane coupled to a neural network
- Title(参考訳): ニューラルネットワークに結合した生体膜を用いた高速周波数識別と音素認識
- Authors: Woo Seok Lee, Hyunjae Kim, Andrew N. Cleland, and Kang-Hun Ahn
- Abstract要約: ヒトの耳では、基底膜は音声認識において中心的な役割を果たす。
この構造に着想を得て,音響信号に応答して空間変位パターンを生成する人工膜を設計・製作した。
単一周波数のトーンで訓練すると、このシステムは周波数に密接な空間を持つトーンをあいまいに区別することができる。
- 参考スコア(独自算出の注目度): 2.314552275307609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the human ear, the basilar membrane plays a central role in sound
recognition. When excited by sound, this membrane responds with a
frequency-dependent displacement pattern that is detected and identified by the
auditory hair cells combined with the human neural system. Inspired by this
structure, we designed and fabricated an artificial membrane that produces a
spatial displacement pattern in response to an audible signal, which we used to
train a convolutional neural network (CNN). When trained with single frequency
tones, this system can unambiguously distinguish tones closely spaced in
frequency. When instead trained to recognize spoken vowels, this system
outperforms existing methods for phoneme recognition, including the discrete
Fourier transform (DFT), zoom FFT and chirp z-transform, especially when tested
in short time windows. This sound recognition scheme therefore promises
significant benefits in fast and accurate sound identification compared to
existing methods.
- Abstract(参考訳): ヒトの耳では、基底膜は音声認識において中心的な役割を果たす。
音によって興奮すると、この膜は周波数依存性の変位パターンに応答し、聴覚毛細胞とヒトの神経系が結合して検出・同定される。
この構造にインスパイアされた我々は,畳み込みニューラルネットワーク(CNN)のトレーニングに使用した,可聴信号に応答して空間変位パターンを生成する人工膜を設計・製作した。
単一の周波数音で訓練すると、このシステムは周波数に密接な間隔で音を区別することができる。
音声母音の認識を訓練する場合、このシステムは離散フーリエ変換(DFT)、ズームFFT、チャープz変換(特に短時間ウィンドウでのテスト)など、既存の音素認識方法よりも優れる。
したがって、この音声認識方式は、既存の方法に比べて高速で正確な音響識別において大きな利点をもたらす。
関連論文リスト
- DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Classification of multi-frequency RF signals by extreme learning, using
magnetic tunnel junctions as neurons and synapses [46.000685134136525]
磁気トンネル接合は並列に複数の周波数でRF入力を処理可能であることを示す。
極端学習と呼ばれるバックプロパゲーションフリーの手法を用いて、RF信号で符号化されたノイズの多い画像を分類する。
これらの結果は、組み込みの高周波人工知能にとって重要なステップである。
論文 参考訳(メタデータ) (2022-11-02T14:09:42Z) - Deep Metric Learning with Locality Sensitive Angular Loss for
Self-Correcting Source Separation of Neural Spiking Signals [77.34726150561087]
本稿では, 深層学習に基づく手法を提案し, 自動掃除とロバスト分離フィルタの必要性に対処する。
本手法は, ソース分離した高密度表面筋電図記録に基づいて, 人工的に劣化したラベルセットを用いて検証する。
このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確に復号することができる。
論文 参考訳(メタデータ) (2021-10-13T21:51:56Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Time-Frequency Analysis based Deep Interference Classification for
Frequency Hopping System [2.8123846032806035]
干渉分類は、認証された通信システムを保護する上で重要な役割を果たす。
本稿では,周波数ホッピング通信システムにおける干渉分類問題について述べる。
周波数ホッピング系における多重干渉の可能性を考慮すると、線形および双線形変換に基づく複合時間周波数解析法が採用されている。
論文 参考訳(メタデータ) (2021-07-21T14:22:40Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。