論文の概要: Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control
- arxiv url: http://arxiv.org/abs/2406.13842v1
- Date: Wed, 19 Jun 2024 21:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:15:51.699584
- Title: Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control
- Title(参考訳): エアトラヒック制御のための連接型話者列検出と音声認識
- Authors: Alexander Blatt, Aravind Krishnan, Dietrich Klakow,
- Abstract要約: 本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
- 参考スコア(独自算出の注目度): 60.35553925189286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing air-traffic control (ATC) data for downstream natural-language processing tasks requires preprocessing steps. Key steps are the transcription of the data via automatic speech recognition (ASR) and speaker diarization, respectively speaker role detection (SRD) to divide the transcripts into pilot and air-traffic controller (ATCO) transcripts. While traditional approaches take on these tasks separately, we propose a transformer-based joint ASR-SRD system that solves both tasks jointly while relying on a standard ASR architecture. We compare this joint system against two cascaded approaches for ASR and SRD on multiple ATC datasets. Our study shows in which cases our joint system can outperform the two traditional approaches and in which cases the other architectures are preferable. We additionally evaluate how acoustic and lexical differences influence all architectures and show how to overcome them for our joint architecture.
- Abstract(参考訳): 下流の自然言語処理タスクにATC(Air-traffic Control)データを利用するには、事前処理が必要である。
鍵となるステップは、自動音声認識(ASR)と話者ダイアリゼーション(話者ダイアリゼーション)によるデータの転写であり、それぞれが話者ロール検出(SRD)を使用して、転写をパイロットと航空交通管制官(ATCO)の転写に分割する。
従来のアプローチではこれらのタスクを別々に扱うが,標準のASRアーキテクチャに依存しつつ,両タスクを共同で解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
本研究は,我々の共同システムが従来の2つのアプローチより優れている場合と,他のアーキテクチャの方が望ましい場合を示す。
さらに、音響的および語彙的差異がすべてのアーキテクチャにどのように影響するかを評価し、共同アーキテクチャに対してそれらを克服する方法を示す。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文 参考訳(メタデータ) (2021-11-03T07:00:20Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Grammar Based Identification Of Speaker Role For Improving ATCO And
Pilot ASR [1.1391158217994781]
航空交通管制のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。
ATCOのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとって極めて優れている。
論文 参考訳(メタデータ) (2021-08-27T08:40:08Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。