論文の概要: How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications
- arxiv url: http://arxiv.org/abs/2203.16822v1
- Date: Thu, 31 Mar 2022 06:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 14:13:22.732507
- Title: How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications
- Title(参考訳): Wav2Vec2.0はドメインシフトASRでどのように機能するか?
航空交通制御コミュニケーションに関する総合ベンチマーク
- Authors: Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Saeed Sarfjoo,
Petr Motlicek, Matthias Kleinert, Hartmut Helmke, Oliver Ohneiser, Qingran
Zhan
- Abstract要約: 本研究は,事前学習と下流微調整の相違がデータに与える影響について検討する。
提案したモデルを4つの挑戦的なATCテストセットでベンチマークする。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
- 参考スコア(独自算出の注目度): 1.3800173438685746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on self-supervised pre-training focus on leveraging large-scale
unlabeled speech data to build robust end-to-end (E2E) acoustic models (AM)
that can be later fine-tuned on downstream tasks e.g., automatic speech
recognition (ASR). Yet, few works investigated the impact on performance when
the data substantially differs between the pre-training and downstream
fine-tuning phases (i.e., domain shift). We target this scenario by analyzing
the robustness of Wav2Vec2.0 and XLS-R models on downstream ASR for a
completely unseen domain, i.e., air traffic control (ATC) communications. We
benchmark the proposed models on four challenging ATC test sets
(signal-to-noise ratio varies between 5 to 20 dB). Relative word error rate
(WER) reduction between 20% to 40% are obtained in comparison to hybrid-based
state-of-the-art ASR baselines by fine-tuning E2E acoustic models with a small
fraction of labeled data. We also study the impact of fine-tuning data size on
WERs, going from 5 minutes (few-shot) to 15 hours.
- Abstract(参考訳): 近年、大規模未ラベル音声データを活用して、後から下流のタスク、例えば自動音声認識(ASR)で微調整できる堅牢なエンドツーエンド音響モデル(E2E)を構築することに焦点を当てている。
しかし、事前学習と下流の微調整フェーズ(すなわちドメインシフト)でデータが大きく異なる場合のパフォーマンスへの影響を調査する研究はほとんどない。
本稿では, 航空交通制御(ATC)通信において, 下流ASRにおけるWav2Vec2.0およびXLS-Rモデルのロバスト性を解析することにより, このシナリオを目標とする。
提案したモデルを4つの挑戦的ATCテストセットでベンチマークする(信号対雑音比は5~20dB)。
ラベル付きデータの少ない細調整E2E音響モデルを用いて, 単語誤り率(WER)の20%から40%の低減をハイブリッドベースとしたASRベースラインと比較した。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
関連論文リスト
- Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - Vision in adverse weather: Augmentation using CycleGANs with various
object detectors for robust perception in autonomous racing [70.16043883381677]
自律レースでは、天気は突然変化し、認識が著しく低下し、非効率な操作が引き起こされる。
悪天候の検知を改善するために、ディープラーニングベースのモデルは通常、そのような状況下でキャプチャされた広範なデータセットを必要とする。
本稿では,5つの最先端検出器のうち4つの性能向上を図るために,自動レース(CycleGANを用いた)における合成悪条件データセットを用いた手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T10:02:40Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition [44.347739529374124]
自己教師付き事前学習は、音声認識(ASR)の性能を劇的に改善した
既存の自己指導型事前学習アプローチの多くはタスク非依存であり、様々な下流タスクに適用できる。
我々はwav2vec-Sと呼ばれる新しい事前学習パラダイムを提案し、このギャップを埋めるためにタスク固有の半教師付き事前学習を使用する。
論文 参考訳(メタデータ) (2021-10-09T07:09:22Z) - Prediction of Traffic Flow via Connected Vehicles [77.11902188162458]
本稿では,交通機関が交通の流れを早期に制御し,渋滞を防止するための短期交通流予測フレームワークを提案する。
我々は,過去の流れデータと,コネクテッド・ビークル(CV)技術によって提供されるリアルタイムフィードや軌道データといった革新的な特徴に基づいて,将来の道路セグメントにおける流れを予測する。
本手法は, 流れの予測, CVが軌道に沿ったセグメントに現実的に遭遇する様々な事象の影響を組み込むことによって, 高度なモデリングを可能にすることを示す。
論文 参考訳(メタデータ) (2020-07-10T16:00:44Z) - Automatic Speech Recognition Benchmark for Air-Traffic Communications [1.175956452196938]
CleanSky EC-H2020 ATCO2は、航空空間からATCo音声データを収集、整理、自動処理するASRベースのプラットフォームを開発することを目的としている。
アクセントによるアクセント間の欠陥は、データ量によって最小限に抑えられ、ATC環境でシステムを実現することができる。
論文 参考訳(メタデータ) (2020-06-18T06:49:22Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。