論文の概要: A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers
- arxiv url: http://arxiv.org/abs/2304.07842v1
- Date: Sun, 16 Apr 2023 17:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:11:27.364586
- Title: A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers
- Title(参考訳): 航空管制士養成のための仮想シミュレーションパイロットエージェント
- Authors: Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Petr Motlicek,
Matthias Kleinert
- Abstract要約: 航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
- 参考スコア(独自算出の注目度): 0.797970449705065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a novel virtual simulation-pilot engine for speeding
up air traffic controller (ATCo) training by integrating different
state-of-the-art artificial intelligence (AI) based tools. The virtual
simulation-pilot engine receives spoken communications from ATCo trainees, and
it performs automatic speech recognition and understanding. Thus, it goes
beyond only transcribing the communication and can also understand its meaning.
The output is subsequently sent to a response generator system, which resembles
the spoken read back that pilots give to the ATCo trainees. The overall
pipeline is composed of the following submodules: (i) automatic speech
recognition (ASR) system that transforms audio into a sequence of words; (ii)
high-level air traffic control (ATC) related entity parser that understands the
transcribed voice communication; and (iii) a text-to-speech submodule that
generates a spoken utterance that resembles a pilot based on the situation of
the dialogue. Our system employs state-of-the-art AI-based tools such as
Wav2Vec 2.0, Conformer, BERT and Tacotron models. To the best of our knowledge,
this is the first work fully based on open-source ATC resources and AI tools.
In addition, we have developed a robust and modular system with optional
submodules that can enhance the system's performance by incorporating real-time
surveillance data, metadata related to exercises (such as sectors or runways),
or even introducing a deliberate read-back error to train ATCo trainees to
identify them. Our ASR system can reach as low as 5.5% and 15.9% word error
rates (WER) on high and low-quality ATC audio. We also demonstrate that adding
surveillance data into the ASR can yield callsign detection accuracy of more
than 96%.
- Abstract(参考訳): 本稿では,最先端人工知能(AI)ベースのツールを統合することで,航空交通制御装置(ATCo)のトレーニングを高速化する,新しい仮想シミュレーションパイロットエンジンを提案する。
仮想シミュレーションパイロットエンジンはATCo訓練生から音声通信を受け、音声認識と理解を自動的に行う。
したがって、コミュニケーションをトランスクリプティングするだけでなく、その意味も理解できる。
出力は後に応答生成システムに送信され、これはパイロットがatcoの訓練生に与えた音声読み戻しに似ている。
パイプライン全体は以下のサブモジュールで構成されている。
(i)音声を単語列に変換する自動音声認識(ASR)システム
(ii)書き起こされた音声通信を理解する高レベル航空交通制御(atc)関連エンティティパーサ
(iii)対話の状況に応じてパイロットに似た発話を生成するテキスト対音声サブモジュール。
我々のシステムは、Wav2Vec 2.0、Conformer、BERT、Tacotronモデルといった最先端のAIベースのツールを使用している。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
さらに,リアルタイム監視データや演習に関連するメタデータ(セクターや滑走路など)を組み込んだり,あるいはATCo研修生に意図的に読み返りエラーを導入して,システムの性能を向上させるためのモジュールシステムも開発した。
我々のASRシステムは、高品質のATCオーディオで5.5%と15.9%のワードエラー率(WER)に達することができる。
また、ASRに監視データを追加することで、コールサイン検出精度が96%以上になることを示す。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Lessons Learned in ATCO2: 5000 hours of Air Traffic Control
Communications for Robust Automatic Speech Recognition and Understanding [3.4713477325880464]
ATCO2プロジェクトは、空域から大量のATCデータをリアルタイムで収集、前処理するためのユニークなプラットフォームを開発することを目的としていた。
本稿では,ATCO2パートナーによる従来の研究をレビューする。
ATCO2プロジェクトで開発されたパイプラインは、データのオープンソース化とともに、ATC分野の研究を促進するだろうと考えています。
論文 参考訳(メタデータ) (2023-05-02T02:04:33Z) - Speech and Natural Language Processing Technologies for Pseudo-Pilot
Simulator [0.5480546613836199]
本稿では,AtCos(Air-traffic Controls)トレーニングの高速化を目的とした,簡易かつ効率的な反復型モジュールシステムについて述べる。
例えば、ATCo訓練中にEUROのESCAPE liteシミュレータ(https://www.eurocontrol.int/simulator/escape)に人間のパイロットが必要である。
このニーズは、パイロットとして機能する自動システムによって置き換えることができる。
論文 参考訳(メタデータ) (2022-12-14T11:34:59Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Automatic Speech Recognition Benchmark for Air-Traffic Communications [1.175956452196938]
CleanSky EC-H2020 ATCO2は、航空空間からATCo音声データを収集、整理、自動処理するASRベースのプラットフォームを開発することを目的としている。
アクセントによるアクセント間の欠陥は、データ量によって最小限に抑えられ、ATC環境でシステムを実現することができる。
論文 参考訳(メタデータ) (2020-06-18T06:49:22Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。