論文の概要: Grammar Based Identification Of Speaker Role For Improving ATCO And
Pilot ASR
- arxiv url: http://arxiv.org/abs/2108.12175v1
- Date: Fri, 27 Aug 2021 08:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:21:50.615244
- Title: Grammar Based Identification Of Speaker Role For Improving ATCO And
Pilot ASR
- Title(参考訳): atcoとパイロットasrの改善のための文法に基づく話者役割の同定
- Authors: Amrutha Prasad, Juan Zuluaga-Gomez, Petr Motlicek, Oliver Ohneiser,
Hartmut Helmke, Saeed Sarfjoo, Iuliia Nigmatulina
- Abstract要約: 航空交通管制のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。
ATCOのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとって極めて優れている。
- 参考スコア(独自算出の注目度): 1.1391158217994781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assistant Based Speech Recognition (ABSR) for air traffic control is
generally trained by pooling both Air Traffic Controller (ATCO) and pilot data.
In practice, this is motivated by the fact that the proportion of pilot data is
lesser compared to ATCO while their standard language of communication is
similar. However, due to data imbalance of ATCO and pilot and their varying
acoustic conditions, the ASR performance is usually significantly better for
ATCOs than pilots. In this paper, we propose to (1) split the ATCO and pilot
data using an automatic approach exploiting ASR transcripts, and (2) consider
ATCO and pilot ASR as two separate tasks for Acoustic Model (AM) training. For
speaker role classification of ATCO and pilot data, a hypothesized ASR
transcript is generated with a seed model, subsequently used to classify the
speaker role based on the knowledge extracted from grammar defined by
International Civil Aviation Organization (ICAO). This approach provides an
average speaker role identification accuracy of 83% for ATCO and pilot.
Finally, we show that training AMs separately for each task, or using a
multitask approach is well suited for this data compared to AM trained by
pooling all data.
- Abstract(参考訳): 航空交通制御のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。
実際には、パイロットデータの比率がATCOに比べて低いのに対して、標準的な通信言語は似ているという事実が動機となっている。
しかし、ATCOとパイロットのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとってかなり良い。
本稿では,(1)ATCOとパイロットデータをASRの書き起こしを利用した自動手法で分割すること,(2)ATCOとパイロットASRを音響モデル(AM)トレーニングの2つのタスクとして考えることを提案する。
atcoとパイロットデータの話者役割分類では、シードモデルを用いて仮定されたasr転写物を生成し、その後、国際民間航空機関(icao)の定義した文法から抽出された知識に基づいて話者役割を分類する。
このアプローチは、ATCOとパイロットに対して平均話者ロール識別精度83%を提供する。
最後に、各タスクごとに個別にAMをトレーニングしたり、マルチタスクアプローチを使用すれば、このデータに適していることを示す。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文 参考訳(メタデータ) (2021-11-03T07:00:20Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。