論文の概要: Exploration of Adapter for Noise Robust Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.18275v1
- Date: Wed, 28 Feb 2024 12:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:17:10.079542
- Title: Exploration of Adapter for Noise Robust Automatic Speech Recognition
- Title(参考訳): 雑音ロバスト自動音声認識用アダプタの検討
- Authors: Hao Shi, Tatsuya Kawahara
- Abstract要約: ニューラルネットワークへのアダプタの統合は、トランスファーラーニングの強力なテクニックとして現れている。
本稿では,アダプタをベースとしたノイズロバストASR適応について,徹底的に検討する。
- 参考スコア(独自算出の注目度): 30.712939673394153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting a robust automatic speech recognition (ASR) system to tackle unseen
noise scenarios is crucial. Integrating adapters into neural networks has
emerged as a potent technique for transfer learning. This paper thoroughly
investigates adapter-based noise-robust ASR adaptation. We conducted the
experiments using the CHiME--4 dataset. The results show that inserting the
adapter in the shallow layer yields superior effectiveness, and there is no
significant difference between adapting solely within the shallow layer and
adapting across all layers. Besides, the simulated data helps the system to
improve its performance under real noise conditions. Nonetheless, when the
amount of data is the same, the real data is more effective than the simulated
data. Multi-condition training remains valid for adapter training. Furthermore,
integrating adapters into speech enhancement-based ASR systems yields
substantial improvements.
- Abstract(参考訳): 強固な自動音声認識(asr)システムを未認識雑音に適応させることが不可欠である。
ニューラルネットワークへのアダプタの統合は、転送学習の強力なテクニックとして現れています。
本稿では,アダプタによるノイズロバスト型asr適応について徹底的に検討する。
我々はCHiME--4データセットを用いて実験を行った。
その結果, 浅い層にアダプタを挿入すると優れた効果が得られ, 浅い層のみへの適応とすべての層への適応との間に有意な差は認められなかった。
さらに、シミュレーションデータにより、実雑音下での性能を向上させることができる。
それでも、データの量が同じである場合、実データはシミュレーションデータよりも効果的である。
マルチコンディショントレーニングはアダプタトレーニングに有効である。
さらに、音声強調ベースのasrシステムにアダプタを統合することで、大幅に改善される。
関連論文リスト
- ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks [10.852047082856487]
3種類のアダプタを用いたパラメータ効率の高いファインチューニング手法であるELP-adapter tuningを導入する。
E-Adapterはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L-アダプタは、各エンコーダ層から下流ヘッドへのパスを生成し、下位エンコーダ層から非言語的特徴を抽出するのに役立つ。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
論文 参考訳(メタデータ) (2024-07-28T05:26:03Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。