論文の概要: BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications
- arxiv url: http://arxiv.org/abs/2110.05781v1
- Date: Tue, 12 Oct 2021 07:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:05:56.127462
- Title: BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications
- Title(参考訳): BERTraffic:ロバストなBERTに基づく話者変化検出とエアトラフ通信の役割同定
- Authors: Juan Zuluaga-Gomez and Seyyed Saeed Sarfjoo and Amrutha Prasad and
Iuliia Nigmatulina and Petr Motlicek and Oliver Ohneiser and Hartmut Helmke
- Abstract要約: 音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
- 参考スコア(独自算出の注目度): 2.270534915073284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) is gaining special interest in Air Traffic
Control (ATC). ASR allows transcribing the communications between air traffic
controllers (ATCOs) and pilots. These transcriptions are used to extract ATC
command types and named entities such as aircraft callsigns. One common problem
is when the Speech Activity Detection (SAD) or diarization system fails and
then two or more single speaker segments are in the same recording,
jeopardizing the overall system's performance. We developed a system that
combines the segmentation of a SAD module with a BERT-based model that performs
Speaker Change Detection (SCD) and Speaker Role Identification (SRI) based on
ASR transcripts (i.e., diarization + SRI). This research demonstrates on a
real-life ATC test set that performing diarization directly on textual data
surpass acoustic level diarization. The proposed model reaches up to
~0.90/~0.95 F1-score on ATCO/pilot for SRI on several test sets. The text-based
diarization system brings a 27% relative improvement on Diarization Error Rate
(DER) compared to standard acoustic-based diarization. These results were on
ASR transcripts of a challenging ATC test set with an estimated ~13% word error
rate, validating the approach's robustness even on noisy ASR transcripts.
- Abstract(参考訳): 自動音声認識(ASR)は、航空交通制御(ATC)に特に関心を寄せている。
ASRは、航空管制官(ATCO)とパイロットの間の通信を転写することができる。
これらの転写はATCコマンドタイプと航空機のコールサインなどの名前付きエンティティを抽出するために使用される。
1つの一般的な問題は、音声活動検出(SAD)またはダイアリゼーションシステムが故障し、2つ以上の単一話者セグメントが同一記録に含まれ、システム全体の性能を損なうことである。
本研究では,SADモジュールのセグメンテーションをBERTモデルと組み合わせて,ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
本研究は,テキストデータ上で直接ダイアリゼーションを行う実生活ATCテストセットが,アコースティックレベルダイアリゼーションを超えることを示す。
提案したモデルは、いくつかのテストセットでATCO/パイロットで ~0.90/~0.95 F1スコアに達する。
テキストベースのダイアリゼーションシステムは、標準的な音響ベースのダイアリゼーションと比較して、ダイアリゼーションエラーレート(DER)を27%改善する。
これらの結果は, ASR 転写産物であっても, 単語誤り率を推定した ATC テストセットの ASR 転写産物を用いて評価した。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文 参考訳(メタデータ) (2021-11-03T07:00:20Z) - Grammar Based Identification Of Speaker Role For Improving ATCO And
Pilot ASR [1.1391158217994781]
航空交通管制のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。
ATCOのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとって極めて優れている。
論文 参考訳(メタデータ) (2021-08-27T08:40:08Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。