論文の概要: Bridging Biological Hearing and Neuromorphic Computing: End-to-End Time-Domain Audio Signal Processing with Reservoir Computing
- arxiv url: http://arxiv.org/abs/2603.24283v1
- Date: Wed, 25 Mar 2026 13:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.304962
- Title: Bridging Biological Hearing and Neuromorphic Computing: End-to-End Time-Domain Audio Signal Processing with Reservoir Computing
- Title(参考訳): 生物補聴器とニューロモルフィックコンピューティング:貯留層計算を用いた終端から終端までの音声信号処理
- Authors: Rinku Sebastian, Simon O'Keefe, Martin Trefzer,
- Abstract要約: 本稿では,時間領域の手法と貯水池計算を利用して,音声信号処理を簡略化する手法を提案する。
我々は,貯水池コンピュータを利用した音声信号処理を簡略化し,リアルタイム音声信号処理システムを開発した。
この研究は、生物学的にインスピレーションを受けた特徴抽出と現代のニューロモルフィックコンピューティングのギャップを埋め、次世代音声認識システムにスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advancements in cutting-edge technologies, audio signal processing continues to pose challenges and lacks the precision of a human speech processing system. To address these challenges, we propose a novel approach to simplify audio signal processing by leveraging time-domain techniques and reservoir computing. Through our research, we have developed a real-time audio signal processing system by simplifying audio signal processing through the utilization of reservoir computers, which are significantly easier to train. Feature extraction is a fundamental step in speech signal processing, with Mel Frequency Cepstral Coefficients (MFCCs) being a dominant choice due to their perceptual relevance to human hearing. However, conventional MFCC extraction relies on computationally intensive time-frequency transformations, limiting efficiency in real-time applications. To address this, we propose a novel approach that leverages reservoir computing to streamline MFCC extraction. By replacing traditional frequency-domain conversions with convolution operations, we eliminate the need for complex transformations while maintaining feature discriminability. We present an end-to-end audio processing framework that integrates this method, demonstrating its potential for efficient and real-time speech analysis. Our results contribute to the advancement of energy-efficient audio processing technologies, enabling seamless deployment in embedded systems and voice-driven applications. This work bridges the gap between biologically inspired feature extraction and modern neuromorphic computing, offering a scalable solution for next-generation speech recognition systems.
- Abstract(参考訳): 最先端技術の進歩にもかかわらず、音声信号処理は課題を呈し続け、人間の音声処理システムの精度を欠いている。
これらの課題に対処するために,時間領域技術と貯水池計算を活用して音声信号処理を簡素化する手法を提案する。
本研究では,貯水池コンピュータを利用した音声信号処理を簡略化し,リアルタイムな音声信号処理システムを開発した。
特徴抽出は音声信号処理の基本的なステップであり、Mel Frequency Cepstral Coefficients (MFCCs) は人間の聴覚に対する知覚的関連性から、主要な選択肢である。
しかし、従来のMFCC抽出は計算集約的な時間周波数変換に依存しており、リアルタイムアプリケーションでは効率を制限している。
そこで本研究では,MFCC抽出の合理化に貯水池計算を利用する新しい手法を提案する。
従来の周波数領域変換を畳み込み演算に置き換えることで、特徴識別性を維持しながら複雑な変換の必要性を排除できる。
本稿では,この手法を組み込んだエンドツーエンド音声処理フレームワークを提案する。
本研究は,組込みシステムと音声駆動アプリケーションにおけるシームレスな展開を実現するため,エネルギー効率の高いオーディオ処理技術の進歩に寄与する。
この研究は、生物学的にインスピレーションを受けた特徴抽出と現代のニューロモルフィックコンピューティングのギャップを埋め、次世代音声認識システムにスケーラブルなソリューションを提供する。
関連論文リスト
- WavInWav: Time-domain Speech Hiding via Invertible Neural Network [78.85443308774484]
従来の音声隠蔽法は、秘密の音声を復元する際に不満足な品質をもたらすことが多い。
フローベースの非可逆ニューラルネットワークを使用して、ステゴオーディオ、カバーオーディオ、シークレットオーディオの直接的なリンクを確立する。
また、隠れたデータを不正アクセスから保護するための暗号化技術も追加します。
論文 参考訳(メタデータ) (2025-10-03T11:36:16Z) - Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。
可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。
実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-06-24T21:14:59Z) - Learning to Upsample and Upmix Audio in the Latent Domain [14.777092647088756]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio [1.3584036432145363]
ホモモルフィック暗号化(FHE)は、暗号化されたデータの計算を可能にし、ユーザのプライバシを保存することで、有望なソリューションを提供する。
ここでは、FHEと量子化されたニューラルネットワーク操作を用いて、完全にセキュアなパイプラインを計算します。
提案手法は,音声記述子と畳み込みニューラルネットワーク(CNN)分類器のプライベートな計算もサポートする。
論文 参考訳(メタデータ) (2025-05-15T17:01:52Z) - SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。
本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。
ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文 参考訳(メタデータ) (2025-02-01T04:18:06Z) - Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。