論文の概要: Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information
- arxiv url: http://arxiv.org/abs/2204.06309v1
- Date: Wed, 13 Apr 2022 11:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 13:42:01.120502
- Title: Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information
- Title(参考訳): 監視情報を用いた騒々しい航空交通記録のコールサイン認識と理解
- Authors: Alexander Blatt, Martin Kocour, Karel Vesel\'y, Igor Sz\"oke, Dietrich
Klakow
- Abstract要約: 航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
- 参考スコア(独自算出の注目度): 72.20674534231314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Air traffic control (ATC) relies on communication via speech between pilot
and air-traffic controller (ATCO). The call-sign, as unique identifier for each
flight, is used to address a specific pilot by the ATCO. Extracting the
call-sign from the communication is a challenge because of the noisy ATC voice
channel and the additional noise introduced by the receiver. A low
signal-to-noise ratio (SNR) in the speech leads to high word error rate (WER)
transcripts. We propose a new call-sign recognition and understanding (CRU)
system that addresses this issue. The recognizer is trained to identify
call-signs in noisy ATC transcripts and convert them into the standard
International Civil Aviation Organization (ICAO) format. By incorporating
surveillance information, we can multiply the call-sign accuracy (CSA) up to a
factor of four. The introduced data augmentation adds additional performance on
high WER transcripts and allows the adaptation of the model to unseen
airspaces.
- Abstract(参考訳): 航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
ノイズの多いATC音声チャネルと受信機が導入する付加ノイズのため、通信からコールサインを抽出することは困難である。
音声中の低信号-雑音比(SNR)は、高い単語誤り率(WER)の転写につながる。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
監視情報を組み込むことで、コールサイン精度(CSA)を4倍にすることができる。
導入されたデータ拡張は、高いWER文字の書き起こしにさらなるパフォーマンスを追加し、モデルの空域への適応を可能にする。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - Age of Information in Deep Learning-Driven Task-Oriented Communications [78.84264189471936]
本稿では,その送信機におけるデータを利用した受信機におけるタスク実行を目的とした,タスク指向コミュニケーションにおける年齢概念について検討する。
送信機-受信機操作は、共同で訓練されたディープニューラルネットワーク(DNN)のエンコーダ-デコーダペアとしてモデル化される。
論文 参考訳(メタデータ) (2023-01-11T04:15:51Z) - Task-Oriented Communications for NextG: End-to-End Deep Learning and AI
Security Aspects [78.84264189471936]
NextG通信システムは,タスク指向通信などのタスクを確実に実行するために,この設計パラダイムのシフトを探求し始めている。
無線信号分類はNextG Radio Access Network (RAN) のタスクであり、エッジデバイスはスペクトル認識のための無線信号を収集し、信号ラベルを識別する必要があるNextGベースステーション(gNodeB)と通信する。
エッジデバイスとgNodeB用のエンコーダデコーダ対として、送信機、受信機、および分類器機能を共同で訓練することで、タスク指向通信を考える。
論文 参考訳(メタデータ) (2022-12-19T17:54:36Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - A two-step approach to leverage contextual data: speech recognition in
air-traffic communications [1.3229510087215552]
ASR法とNLP法の利点を組み合わせることで,コールサインの認識が大幅に向上することが証明された。
ASR法とNLP法の組み合わせでコールサインn-gramを増強すると、絶対値の53.7%、相対値の60.4%のコールサイン認識が改善される。
論文 参考訳(メタデータ) (2022-02-08T08:59:54Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Improving callsign recognition with air-surveillance data in air-traffic
communication [1.6058099298620423]
音声認識は、パイロットと航空交通管制官の間の音声通信の補助として使用できる。
エラーのリスクを最小限に抑えるためには、高精度な予測が必要である。
この結果から,着信信号を含む監視データは,発声における着信信号の認識を著しく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2021-08-27T07:56:47Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。