論文の概要: A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches
- arxiv url: http://arxiv.org/abs/2111.02041v1
- Date: Wed, 3 Nov 2021 07:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:39:14.004214
- Title: A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches
- Title(参考訳): 深層学習を用いた航空交通通信における話者の役割同定の比較検討
- Authors: Dongyue Guo, Jianwei Zhang, Bo Yang, Yi Lin
- Abstract要約: 本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
- 参考スコア(独自算出の注目度): 9.565067058593316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic spoken instruction understanding (SIU) of the controller-pilot
conversations in the air traffic control (ATC) requires not only recognizing
the words and semantics of the speech but also determining the role of the
speaker. However, few of the published works on the automatic understanding
systems in air traffic communication focus on speaker role identification
(SRI). In this paper, we formulate the SRI task of controller-pilot
communication as a binary classification problem. Furthermore, the text-based,
speech-based, and speech and text based multi-modal methods are proposed to
achieve a comprehensive comparison of the SRI task. To ablate the impacts of
the comparative approaches, various advanced neural network architectures are
applied to optimize the implementation of text-based and speech-based methods.
Most importantly, a multi-modal speaker role identification network (MMSRINet)
is designed to achieve the SRI task by considering both the speech and textual
modality features. To aggregate modality features, the modal fusion module is
proposed to fuse and squeeze acoustic and textual representations by modal
attention mechanism and self-attention pooling layer, respectively. Finally,
the comparative approaches are validated on the ATCSpeech corpus collected from
a real-world ATC environment. The experimental results demonstrate that all the
comparative approaches are worked for the SRI task, and the proposed MMSRINet
shows the competitive performance and robustness than the other methods on both
seen and unseen data, achieving 98.56%, and 98.08% accuracy, respectively.
- Abstract(参考訳): 航空交通管制(atc)における制御-操縦者会話の自動音声指示理解(siu)は、音声の単語や意味を認識するだけでなく、話者の役割を判断する必要がある。
しかし、航空交通通信における自動理解システムに関する論文のほとんどが話者役割識別(sri)に焦点をあてている。
本稿では,二項分類問題として,制御パイロット通信のSRIタスクを定式化する。
さらに,SRIタスクを包括的に比較するために,テキストベース,音声ベース,音声およびテキストベースのマルチモーダル手法を提案する。
比較アプローチの影響を緩和するために、テキストベースおよび音声ベースの手法の実装を最適化するために、様々な高度なニューラルネットワークアーキテクチャを適用した。
最も重要なことは、マルチモーダル話者ロール識別ネットワーク(MMSRINet)は、音声とテキストの両モードの特徴を考慮してSRIタスクを実現するように設計されている。
モーダル・フュージョン・モジュールは,モーダル・アテンション・メカニズムと自己アテンション・プール・レイヤによって,それぞれ音響表現とテキスト表現を融合・圧縮する。
最後に,実環境のATC環境から収集したATCSpeechコーパスについて比較検討を行った。
実験の結果、sriタスクでは全ての比較手法が動作し、提案されたmmsrinetは、観測データと未確認データの両方における他の手法と比較して、それぞれ98.56%と98.08%の精度で競合性能と堅牢性を示している。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。