論文の概要: Transfer Learning-Based Deep Residual Learning for Speech Recognition in Clean and Noisy Environments
- arxiv url: http://arxiv.org/abs/2505.01632v1
- Date: Fri, 02 May 2025 23:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.198806
- Title: Transfer Learning-Based Deep Residual Learning for Speech Recognition in Clean and Noisy Environments
- Title(参考訳): 移動学習に基づくクリーン・ノイズ環境における音声認識のための深層残差学習
- Authors: Noussaiba Djeffal, Djamel Addou, Hamza Kheddar, Sid Ahmed Selouani,
- Abstract要約: 本稿では, クリーン環境とノイズ環境の両方において, ASRシステムにロバストなニューラル機能を組み込んだ新しいフレームワークを提案する。
実験の結果,畳み込みニューラルネットワーク(CNN)や長期記憶(LSTM)と比較して認識精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 2.1892046440619626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Addressing the detrimental impact of non-stationary environmental noise on automatic speech recognition (ASR) has been a persistent and significant research focus. Despite advancements, this challenge continues to be a major concern. Recently, data-driven supervised approaches, such as deep neural networks, have emerged as promising alternatives to traditional unsupervised methods. With extensive training, these approaches have the potential to overcome the challenges posed by diverse real-life acoustic environments. In this light, this paper introduces a novel neural framework that incorporates a robust frontend into ASR systems in both clean and noisy environments. Utilizing the Aurora-2 speech database, the authors evaluate the effectiveness of an acoustic feature set for Mel-frequency, employing the approach of transfer learning based on Residual neural network (ResNet). The experimental results demonstrate a significant improvement in recognition accuracy compared to convolutional neural networks (CNN) and long short-term memory (LSTM) networks. They achieved accuracies of 98.94% in clean and 91.21% in noisy mode.
- Abstract(参考訳): 非定常環境騒音による自動音声認識(ASR)に対する有害な影響に対処することは、永続的で重要な研究課題である。
進歩にもかかわらず、この課題は引き続き大きな懸念事項である。
近年、ディープニューラルネットワークのようなデータ駆動型教師ありアプローチが、従来の教師なし手法に代わる有望な代替手段として登場した。
広範囲な訓練により、これらのアプローチは様々な実生活の音響環境によってもたらされる課題を克服する可能性がある。
本稿では, クリーン環境とノイズ環境の両方において, 堅牢なフロントエンドをASRシステムに組み込んだ新しいニューラルネットワークフレームワークを提案する。
筆者らは,Aurora-2音声データベースを用いて,Residual Neural Network(ResNet)に基づく伝達学習のアプローチを用いて,メル周波数の音響的特徴セットの有効性を評価する。
実験の結果,畳み込みニューラルネットワーク(CNN)や長期記憶(LSTM)と比較して認識精度が大幅に向上した。
彼らは98.94%の清潔さ、91.21%のノイズモードを達成した。
関連論文リスト
- Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain
State Decoding [0.0]
そこで本研究では, ホップフィールド・ネットワークとコナール・ニューラル・ネットワーク(CNN)を併用した2段階の計算手法を提案する。
様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークがアーティファクトを効果的に軽減し、より低いノイズレベルにおいてクリーンなデータCNNと同等の精度でモデルに到達できることを示しました。
論文 参考訳(メタデータ) (2023-11-06T15:08:13Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Training neural networks with structured noise improves classification and generalization [0.0]
ノイズの多いトレーニングデータに構造を加えることで,アルゴリズムの性能が大幅に向上することを示す。
また,Hebbian Unlearning(ヘビアン・アンラーニング・ルール)と呼ばれる規則は,雑音が最大値である場合のトレーニング・ウィズ・ノイズ・アルゴリズムと一致することを証明した。
論文 参考訳(メタデータ) (2023-02-26T22:10:23Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Robust Learning of Recurrent Neural Networks in Presence of Exogenous
Noise [22.690064709532873]
入力雑音を受けるRNNモデルに対するトラクタブルロバストネス解析を提案する。
線形化手法を用いてロバストネス測度を効率的に推定することができる。
提案手法はリカレントニューラルネットワークのロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2021-05-03T16:45:05Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。