論文の概要: Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
- arxiv url: http://arxiv.org/abs/2502.20311v1
- Date: Thu, 27 Feb 2025 17:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:33.174912
- Title: Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
- Title(参考訳): アクセント型航空交通制御通信における音声認識の適応
- Authors: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim,
- Abstract要約: 本研究では,東南アジアアクセントに特化して微調整されたASRモデルの開発について述べる。
本研究は,SEA音声における単語誤り率(WER)0.0982,9.82%を達成し,大幅な改善を実現している。
その結果,ATC通信における非西欧アクセントの転写精度を向上させるため,ノイズロバスト訓練技術と地域特化データセットの必要性が強調された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Effective communication in Air Traffic Control (ATC) is critical to maintaining aviation safety, yet the challenges posed by accented English remain largely unaddressed in Automatic Speech Recognition (ASR) systems. Existing models struggle with transcription accuracy for Southeast Asian-accented (SEA-accented) speech, particularly in noisy ATC environments. This study presents the development of ASR models fine-tuned specifically for Southeast Asian accents using a newly created dataset. Our research achieves significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82% on SEA-accented ATC speech. Additionally, the paper highlights the importance of region-specific datasets and accent-focused training, offering a pathway for deploying ASR systems in resource-constrained military operations. The findings emphasize the need for noise-robust training techniques and region-specific datasets to improve transcription accuracy for non-Western accents in ATC communications.
- Abstract(参考訳): 航空交通制御(ATC)における効果的な通信は、航空安全を維持するために重要であるが、アクセント付き英語による課題は、自動音声認識(ASR)システムにおいてほとんど適応されていない。
既存のモデルは、特に雑音の多いATC環境で、東南アジアアクセント音声(SEAアクセント音声)の転写精度に苦慮している。
本研究では,新たに作成したデータセットを用いて,東南アジアアクセントに特化して微調整されたASRモデルの開発について述べる。
本研究は,SEA音声における単語誤り率(WER)0.0982,9.82%を達成し,大幅な改善を実現している。
さらに、地域固有のデータセットとアクセントにフォーカスしたトレーニングの重要性を強調し、資源に制約のある軍事行動にASRシステムをデプロイするための経路を提供する。
その結果,ATC通信における非西欧アクセントの転写精度を向上させるため,ノイズロバスト訓練技術と地域特化データセットの必要性が強調された。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - Automatic Speech Recognition Benchmark for Air-Traffic Communications [1.175956452196938]
CleanSky EC-H2020 ATCO2は、航空空間からATCo音声データを収集、整理、自動処理するASRベースのプラットフォームを開発することを目的としている。
アクセントによるアクセント間の欠陥は、データ量によって最小限に抑えられ、ATC環境でシステムを実現することができる。
論文 参考訳(メタデータ) (2020-06-18T06:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。