論文の概要: Investigation of Adapter for Automatic Speech Recognition in Noisy
Environment
- arxiv url: http://arxiv.org/abs/2402.18275v2
- Date: Thu, 29 Feb 2024 05:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:13:18.760548
- Title: Investigation of Adapter for Automatic Speech Recognition in Noisy
Environment
- Title(参考訳): 雑音環境における自動音声認識用アダプタの検討
- Authors: Hao Shi, Tatsuya Kawahara
- Abstract要約: 音声認識システム(ASR)を未確認ノイズ環境に適用することは重要である。
ニューラルネットワークへのアダプタの統合は、トランスファーラーニングの強力なテクニックとして現れている。
本研究は, 雑音環境下でのアダプタに基づくASR適応について, 徹底的に検討する。
- 参考スコア(独自算出の注目度): 30.712939673394153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting an automatic speech recognition (ASR) system to unseen noise
environments is crucial. Integrating adapters into neural networks has emerged
as a potent technique for transfer learning. This study thoroughly investigates
adapter-based ASR adaptation in noisy environments. We conducted experiments
using the CHiME--4 dataset. The results show that inserting the adapter in the
shallow layer yields superior effectiveness, and there is no significant
difference between adapting solely within the shallow layer and adapting across
all layers. The simulated data helps the system to improve its performance
under real noise conditions. Nonetheless, when the amount of data is the same,
the real data is more effective than the simulated data. Multi-condition
training is still useful for adapter training. Furthermore, integrating
adapters into speech enhancement-based ASR systems yields substantial
improvements.
- Abstract(参考訳): 自動音声認識(asr)システムを騒音環境に適応させることが不可欠である。
ニューラルネットワークへのアダプタの統合は、転送学習の強力なテクニックとして現れています。
本研究は, 雑音環境下でのASR適応を徹底的に検討する。
我々はCHiME--4データセットを用いて実験を行った。
その結果, 浅い層にアダプタを挿入すると優れた効果が得られ, 浅い層のみへの適応とすべての層への適応との間に有意な差は認められなかった。
シミュレーションデータにより,実雑音下での性能が向上する。
それでも、データの量が同じである場合、実データはシミュレーションデータよりも効果的である。
マルチコンディショントレーニングはアダプタトレーニングにも有用である。
さらに、音声強調ベースのasrシステムにアダプタを統合することで、大幅に改善される。
関連論文リスト
- ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks [10.852047082856487]
3種類のアダプタを用いたパラメータ効率の高いファインチューニング手法であるELP-adapter tuningを導入する。
E-Adapterはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L-アダプタは、各エンコーダ層から下流ヘッドへのパスを生成し、下位エンコーダ層から非言語的特徴を抽出するのに役立つ。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
論文 参考訳(メタデータ) (2024-07-28T05:26:03Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。