論文の概要: Improving speech recognition models with small samples for air traffic
control systems
- arxiv url: http://arxiv.org/abs/2102.08015v1
- Date: Tue, 16 Feb 2021 08:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:57:01.127039
- Title: Improving speech recognition models with small samples for air traffic
control systems
- Title(参考訳): 航空交通制御システム用小型サンプルを用いた音声認識モデルの改善
- Authors: Yi Lin, Qin Li, Bo Yang, Zhen Yan, Huachun Tan, and Zhengmao Chen
- Abstract要約: 本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
- 参考スコア(独自算出の注目度): 9.322392779428505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of air traffic control (ATC) systems, efforts to train a
practical automatic speech recognition (ASR) model always faces the problem of
small training samples since the collection and annotation of speech samples
are expert- and domain-dependent task. In this work, a novel training approach
based on pretraining and transfer learning is proposed to address this issue,
and an improved end-to-end deep learning model is developed to address the
specific challenges of ASR in the ATC domain. An unsupervised pretraining
strategy is first proposed to learn speech representations from unlabeled
samples for a certain dataset. Specifically, a masking strategy is applied to
improve the diversity of the sample without losing their general patterns.
Subsequently, transfer learning is applied to fine-tune a pretrained or other
optimized baseline models to finally achieves the supervised ASR task. By
virtue of the common terminology used in the ATC domain, the transfer learning
task can be regarded as a sub-domain adaption task, in which the transferred
model is optimized using a joint corpus consisting of baseline samples and new
transcribed samples from the target dataset. This joint corpus construction
strategy enriches the size and diversity of the training samples, which is
important for addressing the issue of the small transcribed corpus. In
addition, speed perturbation is applied to augment the new transcribed samples
to further improve the quality of the speech corpus. Three real ATC datasets
are used to validate the proposed ASR model and training strategies. The
experimental results demonstrate that the ASR performance is significantly
improved on all three datasets, with an absolute character error rate only
one-third of that achieved through the supervised training. The applicability
of the proposed strategies to other ASR approaches is also validated.
- Abstract(参考訳): 航空交通制御 (ATC) の分野において, 実践的自動音声認識 (ASR) モデルの訓練は, 音声サンプルの収集とアノテーションが専門的かつ領域依存的な作業であるため, 常に小さな訓練サンプルの問題に直面している。
本研究では,この課題に対処するために,事前学習と伝達学習に基づく新しい学習手法を提案し,ATC領域におけるASRの具体的な課題に対処するために,エンドツーエンドのディープラーニングモデルを改善する。
教師なしプリトレーニング戦略は、特定のデータセットのラベルなしのサンプルから音声表現を学ぶために最初に提案される。
具体的には、一般的なパターンを失うことなくサンプルの多様性を改善するためのマスキング戦略が適用されます。
その後、事前訓練または他の最適化されたベースラインモデルに転写学習を適用し、最終的に教師付きASRタスクを達成する。
ATCドメインで使用される共通用語により、転送学習タスクはサブドメイン適応タスクとみなすことができ、転送されたモデルは、ベースラインサンプルとターゲットデータセットから新たに転写されたサンプルからなるジョイントコーパスを用いて最適化される。
この共同コーパス構築戦略は,小文字コーパスの問題に対処する上で重要なトレーニングサンプルのサイズと多様性を充実させるものである。
さらに, 音声コーパスの品質向上のために, 新たな転写サンプルを増強するために, 速度摂動を適用した。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで有意に向上し,絶対的な文字誤り率の3分の1が教師付きトレーニングによって達成された。
他のASRアプローチに対する提案された戦略の適用可能性も検証される。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - Iterative self-transfer learning: A general methodology for response
time-history prediction based on small dataset [0.0]
本研究では,小さなデータセットに基づいてニューラルネットワークを学習するための反復的自己伝達学習手法を提案する。
提案手法は,小さなデータセットに対して,ほぼ一桁の精度でモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T18:48:04Z) - Adaptive Multi-Corpora Language Model Training for Speech Recognition [13.067901680326932]
本稿では,学習過程に沿って各コーパスのサンプリング確率を動的に学習・調整する適応型多コーパス学習アルゴリズムを提案する。
静的サンプリング戦略のベースラインと比較すると,提案手法は顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-11-09T06:54:50Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。