論文の概要: Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems
- arxiv url: http://arxiv.org/abs/2104.03643v1
- Date: Thu, 8 Apr 2021 09:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:21:50.456713
- Title: Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems
- Title(参考訳): 文脈半監督学習:ASRシステムにおける空気サーベイランスと非転写ATCデータを活用するためのアプローチ
- Authors: Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr
Motlicek and Karel Vesel\'y and Martin Kocour and Igor Sz\"oke
- Abstract要約: 飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.6465251961564605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Air traffic management and specifically air-traffic control (ATC) rely mostly
on voice communications between Air Traffic Controllers (ATCos) and pilots. In
most cases, these voice communications follow a well-defined grammar that could
be leveraged in Automatic Speech Recognition (ASR) technologies. The callsign
used to address an airplane is an essential part of all ATCo-pilot
communications. We propose a two-steps approach to add contextual knowledge
during semi-supervised training to reduce the ASR system error rates at
recognizing the part of the utterance that contains the callsign. Initially, we
represent in a WFST the contextual knowledge (i.e. air-surveillance data) of an
ATCo-pilot communication. Then, during Semi-Supervised Learning (SSL) the
contextual knowledge is added by second-pass decoding (i.e. lattice
re-scoring). Results show that `unseen domains' (e.g. data from airports not
present in the supervised training data) are further aided by contextual SSL
when compared to standalone SSL. For this task, we introduce the Callsign Word
Error Rate (CA-WER) as an evaluation metric, which only assesses ASR
performance of the spoken callsign in an utterance. We obtained a 32.1% CA-WER
relative improvement applying SSL with an additional 17.5% CA-WER improvement
by adding contextual knowledge during SSL on a challenging ATC-based test set
gathered from LiveATC.
- Abstract(参考訳): 航空交通管理、特に航空交通管制(ATC)は、主に航空交通管制官とパイロットの間の音声通信に依存している。
ほとんどの場合、これらの音声コミュニケーションは、自動音声認識(asr)技術で活用できるよく定義された文法に従う。
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
本稿では,半教師訓練中に文脈知識を付加し,コールサインを含む発話の一部を認識する際のasrシステムエラー率を低減させる2段階アプローチを提案する。
当初、WFSTは文脈知識(すなわち、文脈知識)を表す。
ATCoパイロット通信の航空監視データ)。
次に、セミ・スーパーバイザード・ラーニング(SSL)の間、第2パスの復号(すなわち)によって文脈知識が付加される。
lattice re-scoring (英語)
結果は'unseen domain'(例)を示している。
管理訓練データに存在しない空港のデータ)は、スタンドアロンのSSLと比較して、文脈的なSSLによってさらに助けられる。
そこで本研究では,発話中の発声符号のasr性能のみを評価する評価指標として,callsign word error rate (ca-wer)を導入する。
我々は,LiveATCから収集したATCベースのテストセット上で,SSL中にコンテキスト知識を追加することで,さらに17.5%のCA-WERの改善を施した32.1%CA-WERの相対的改善を得た。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Communication-Efficient Personalized Federated Learning for
Speech-to-Text Tasks [66.78640306687227]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - Lessons Learned in ATCO2: 5000 hours of Air Traffic Control
Communications for Robust Automatic Speech Recognition and Understanding [3.4713477325880464]
ATCO2プロジェクトは、空域から大量のATCデータをリアルタイムで収集、前処理するためのユニークなプラットフォームを開発することを目的としていた。
本稿では,ATCO2パートナーによる従来の研究をレビューする。
ATCO2プロジェクトで開発されたパイプラインは、データのオープンソース化とともに、ATC分野の研究を促進するだろうと考えています。
論文 参考訳(メタデータ) (2023-05-02T02:04:33Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech
Recognition and Natural Language Understanding of Air Traffic Control
Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。
ATCO2コーパスは3つのサブセットに分けられる。
我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文 参考訳(メタデータ) (2022-11-08T07:26:45Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。