論文の概要: ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications
- arxiv url: http://arxiv.org/abs/2211.04054v2
- Date: Thu, 15 Jun 2023 13:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:15:18.101100
- Title: ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications
- Title(参考訳): ATCO2コーパス:航空交通制御通信の音声認識と自然言語理解に関する研究のための大規模データセット
- Authors: Juan Zuluaga-Gomez and Karel Vesel\'y and Igor Sz\"oke and Alexander
Blatt and Petr Motlicek and Martin Kocour and Mickael Rigault and Khalid
Choukri and Amrutha Prasad and Seyyed Saeed Sarfjoo and Iuliia Nigmatulina
and Claudia Cevenini and Pavel Kol\v{c}\'arek and Allan Tart and Jan
\v{C}ernock\'y and Dietrich Klakow
- Abstract要約: 本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
- 参考スコア(独自算出の注目度): 51.24043482906732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personal assistants, automatic speech recognizers and dialogue understanding
systems are becoming more critical in our interconnected digital world. A clear
example is air traffic control (ATC) communications. ATC aims at guiding
aircraft and controlling the airspace in a safe and optimal manner. These
voice-based dialogues are carried between an air traffic controller (ATCO) and
pilots via very-high frequency radio channels. In order to incorporate these
novel technologies into ATC (low-resource domain), large-scale annotated
datasets are required to develop the data-driven AI systems. Two examples are
automatic speech recognition (ASR) and natural language understanding (NLU). In
this paper, we introduce the ATCO2 corpus, a dataset that aims at fostering
research on the challenging ATC field, which has lagged behind due to lack of
annotated data. The ATCO2 corpus covers 1) data collection and pre-processing,
2) pseudo-annotations of speech data, and 3) extraction of ATC-related named
entities. The ATCO2 corpus is split into three subsets. 1) ATCO2-test-set
corpus contains 4 hours of ATC speech with manual transcripts and a subset with
gold annotations for named-entity recognition (callsign, command, value). 2)
The ATCO2-PL-set corpus consists of 5281 hours of unlabeled ATC data enriched
with automatic transcripts from an in-domain speech recognizer, contextual
information, speaker turn information, signal-to-noise ratio estimate and
English language detection score per sample. Both available for purchase
through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. 3)
The ATCO2-test-set-1h corpus is a one-hour subset from the original test set
corpus, that we are offering for free at https://www.atco2.org/data. We expect
the ATCO2 corpus will foster research on robust ASR and NLU not only in the
field of ATC communications but also in the general research community.
- Abstract(参考訳): デジタル世界では,パーソナルアシスタント,自動音声認識,対話理解システムがますます重要になっている。
明確な例として、航空管制(ATC)通信がある。
atcは航空機を誘導し、安全かつ最適な方法で空域を制御することを目的としている。
これらの音声ベースの対話は、atco(air traffic controller)と高周波数の無線チャネルを介してパイロットの間で行われる。
これらの新しい技術をATC(低リソース領域)に組み込むには、データ駆動型AIシステムの開発には大規模なアノテートデータセットが必要である。
2つの例は、自動音声認識(ASR)と自然言語理解(NLU)である。
本稿では,アノテートデータの欠如により遅れを取っているatc分野の研究の促進を目的としたデータセットであるatco2コーパスを提案する。
ATCO2コーパスカバー
1)データ収集及び前処理
2)音声データの擬似注釈,及び
3) atc関連名前付きエンティティの抽出。
ATCO2コーパスは3つのサブセットに分けられる。
1)ATCO2-test-set corpusは、手書き文字によるATC音声の4時間と、名前付き認識(コールサイン、コマンド、値)のための金アノテーションのサブセットを含む。
2)ATCO2-PLセットコーパスは,ドメイン内音声認識器,文脈情報,話者ターン情報,信号対雑音比推定,英単語検出スコアから,5281時間の未ラベルATCデータから成っている。
どちらもELDA経由で http://catalog.elra.info/en-us/repository/browse/ELRA-S0484 で購入することができる。
3) ATCO2-test-set-1hコーパスは、元のテストセットコーパスから1時間のサブセットであり、https://www.atco2.org/data.comで無料で提供しています。
我々はATCO2コーパスが、ATC通信だけでなく、一般研究コミュニティにおいても堅牢なASRとNLUの研究を促進することを期待している。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Lessons Learned in ATCO2: 5000 hours of Air Traffic Control
Communications for Robust Automatic Speech Recognition and Understanding [3.4713477325880464]
ATCO2プロジェクトは、空域から大量のATCデータをリアルタイムで収集、前処理するためのユニークなプラットフォームを開発することを目的としていた。
本稿では,ATCO2パートナーによる従来の研究をレビューする。
ATCO2プロジェクトで開発されたパイプラインは、データのオープンソース化とともに、ATC分野の研究を促進するだろうと考えています。
論文 参考訳(メタデータ) (2023-05-02T02:04:33Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - Speech and Natural Language Processing Technologies for Pseudo-Pilot
Simulator [0.5480546613836199]
本稿では,AtCos(Air-traffic Controls)トレーニングの高速化を目的とした,簡易かつ効率的な反復型モジュールシステムについて述べる。
例えば、ATCo訓練中にEUROのESCAPE liteシミュレータ(https://www.eurocontrol.int/simulator/escape)に人間のパイロットが必要である。
このニーズは、パイロットとして機能する自動システムによって置き換えることができる。
論文 参考訳(メタデータ) (2022-12-14T11:34:59Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Grammar Based Identification Of Speaker Role For Improving ATCO And
Pilot ASR [1.1391158217994781]
航空交通管制のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。
ATCOのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとって極めて優れている。
論文 参考訳(メタデータ) (2021-08-27T08:40:08Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。