論文の概要: ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems
- arxiv url: http://arxiv.org/abs/2102.08535v1
- Date: Wed, 17 Feb 2021 02:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:33:47.847450
- Title: ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems
- Title(参考訳): ATCSpeechNet:航空交通制御システムのための多言語エンドツーエンド音声認識フレームワーク
- Authors: Yi Lin, Bo Yang, Linchao Li, Dongyue Guo, Jianwei Zhang, Hu Chen, Yi
Zhang
- Abstract要約: ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
- 参考スコア(独自算出の注目度): 15.527854608553824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a multilingual end-to-end framework, called as ATCSpeechNet,
is proposed to tackle the issue of translating communication speech into
human-readable text in air traffic control (ATC) systems. In the proposed
framework, we focus on integrating the multilingual automatic speech
recognition (ASR) into one model, in which an end-to-end paradigm is developed
to convert speech waveform into text directly, without any feature engineering
or lexicon. In order to make up for the deficiency of the handcrafted feature
engineering caused by ATC challenges, a speech representation learning (SRL)
network is proposed to capture robust and discriminative speech representations
from the raw wave. The self-supervised training strategy is adopted to optimize
the SRL network from unlabeled data, and further to predict the speech
features, i.e., wave-to-feature. An end-to-end architecture is improved to
complete the ASR task, in which a grapheme-based modeling unit is applied to
address the multilingual ASR issue. Facing the problem of small transcribed
samples in the ATC domain, an unsupervised approach with mask prediction is
applied to pre-train the backbone network of the ASR model on unlabeled data by
a feature-to-feature process. Finally, by integrating the SRL with ASR, an
end-to-end multilingual ASR framework is formulated in a supervised manner,
which is able to translate the raw wave into text in one model, i.e.,
wave-to-text. Experimental results on the ATCSpeech corpus demonstrate that the
proposed approach achieves a high performance with a very small labeled corpus
and less resource consumption, only 4.20% label error rate on the 58-hour
transcribed corpus. Compared to the baseline model, the proposed approach
obtains over 100% relative performance improvement which can be further
enhanced with the increasing of the size of the transcribed samples.
- Abstract(参考訳): 本論文では,ATC(Air Traffic Control)システムにおけるコミュニケーション音声の人間可読テキストへの変換問題に取り組むために,ATCSpeechNet(ATCSpeechNet)と呼ばれる多言語のエンドツーエンドフレームワークを提案する。
提案するフレームワークでは,音声波形を直接テキストに変換するエンドツーエンドのパラダイムを開発して,特徴工学や辞書を使わずにマルチリンガル自動音声認識(ASR)を1つのモデルに統合することに注力する。
ATCの課題に起因する手作業による特徴工学の不足を補うために、生の波から堅牢で差別的な音声表現をキャプチャするために、音声表現学習(SRL)ネットワークが提案される。
自己監視型トレーニング戦略を採用し、ラベルのないデータからSRLネットワークを最適化し、さらに音声機能、すなわち波対機能を予測する。
エンドツーエンドアーキテクチャを改善してASRタスクを完了し、多言語ASR問題に対処するために、Graphemeベースのモデリングユニットを適用する。
ATC領域の小さな転写サンプルの問題に直面し、マスク予測を用いた教師なしアプローチを適用して、特徴-特徴過程によるラベルなしデータ上で、ASRモデルのバックボーンネットワークを事前訓練する。
最後に、SRLとASRを統合することによって、エンドツーエンドの多言語ASRフレームワークが監督された方法で策定され、生の波を1つのモデル、すなわち波対テキストのテキストに変換することができる。
ATCSpeechコーパスの実験結果から,提案手法は,58時間転写コーパスのラベル誤り率の4.20%に留まらず,非常に少ないラベル付きコーパスで高い性能を実現していることが示された。
提案手法は, ベースラインモデルと比較して, 100%以上の相対的性能向上を実現し, 転写サンプルのサイズ拡大によりさらに向上させることができる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Communication-Efficient Personalized Federated Learning for
Speech-to-Text Tasks [66.78640306687227]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文 参考訳(メタデータ) (2021-11-03T07:00:20Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。