論文の概要: Automatic Speech Recognition Benchmark for Air-Traffic Communications
- arxiv url: http://arxiv.org/abs/2006.10304v2
- Date: Thu, 13 Aug 2020 06:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 10:00:46.695301
- Title: Automatic Speech Recognition Benchmark for Air-Traffic Communications
- Title(参考訳): 航空交通通信のための音声認識ベンチマーク
- Authors: Juan Zuluaga-Gomez and Petr Motlicek and Qingran Zhan and Karel Vesely
and Rudolf Braun
- Abstract要約: CleanSky EC-H2020 ATCO2は、航空空間からATCo音声データを収集、整理、自動処理するASRベースのプラットフォームを開発することを目的としている。
アクセントによるアクセント間の欠陥は、データ量によって最小限に抑えられ、ATC環境でシステムを実現することができる。
- 参考スコア(独自算出の注目度): 1.175956452196938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Automatic Speech Recognition (ASR) over the last decade opened
new areas of speech-based automation such as in Air-Traffic Control (ATC)
environment. Currently, voice communication and data links communications are
the only way of contact between pilots and Air-Traffic Controllers (ATCo),
where the former is the most widely used and the latter is a non-spoken method
mandatory for oceanic messages and limited for some domestic issues. ASR
systems on ATCo environments inherit increasing complexity due to accents from
non-English speakers, cockpit noise, speaker-dependent biases, and small
in-domain ATC databases for training. Hereby, we introduce CleanSky EC-H2020
ATCO2, a project that aims to develop an ASR-based platform to collect,
organize and automatically pre-process ATCo speech-data from air space. This
paper conveys an exploratory benchmark of several state-of-the-art ASR models
trained on more than 170 hours of ATCo speech-data. We demonstrate that the
cross-accent flaws due to speakers' accents are minimized due to the amount of
data, making the system feasible for ATC environments. The developed ASR system
achieves an averaged word error rate (WER) of 7.75% across four databases. An
additional 35% relative improvement in WER is achieved on one test set when
training a TDNNF system with byte-pair encoding.
- Abstract(参考訳): 過去10年間の音声認識(asr)の進歩は、航空管制(atc)環境など、音声ベースの自動化の新たな分野を開いた。
現在、音声通信とデータリンク通信は、パイロットとAir-Traffic Controllers (ATCo)の間の唯一の接触方法であり、後者が最も広く使われている。
ATCo環境上のASRシステムは、非英語話者のアクセント、コックピットノイズ、話者依存バイアス、および訓練用の小さなドメイン内ATCデータベースによる複雑さの増大を継承する。
そこで我々は,大気圏からATCo音声データを収集,整理,自動処理するASRベースのプラットフォームを開発するプロジェクトであるCleanSky EC-H2020 ATCO2を紹介する。
本稿では、170時間以上のATCo音声データに基づいて訓練された最先端のASRモデルの探索的ベンチマークを示す。
話者のアクセントによる過度な欠陥は、データ量によって最小化され、ATC環境においてシステムが実現可能であることを示す。
開発した ASR システムは,平均単語誤り率 (WER) を4つのデータベースで7.75% を達成する。
バイトペア符号化によるTDNNFシステムのトレーニングでは、WERの35%の相対的な改善が1つのテストセットで達成されている。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Lessons Learned in ATCO2: 5000 hours of Air Traffic Control
Communications for Robust Automatic Speech Recognition and Understanding [3.4713477325880464]
ATCO2プロジェクトは、空域から大量のATCデータをリアルタイムで収集、前処理するためのユニークなプラットフォームを開発することを目的としていた。
本稿では,ATCO2パートナーによる従来の研究をレビューする。
ATCO2プロジェクトで開発されたパイプラインは、データのオープンソース化とともに、ATC分野の研究を促進するだろうと考えています。
論文 参考訳(メタデータ) (2023-05-02T02:04:33Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications [1.3800173438685746]
本研究は,事前学習と下流微調整の相違がデータに与える影響について検討する。
提案したモデルを4つの挑戦的なATCテストセットでベンチマークする。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
論文 参考訳(メタデータ) (2022-03-31T06:10:42Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。