論文の概要: A two-step approach to leverage contextual data: speech recognition in
air-traffic communications
- arxiv url: http://arxiv.org/abs/2202.03725v1
- Date: Tue, 8 Feb 2022 08:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:06:54.535103
- Title: A two-step approach to leverage contextual data: speech recognition in
air-traffic communications
- Title(参考訳): 文脈データ活用のための2段階アプローチ--航空通信における音声認識
- Authors: Iuliia Nigmatulina, Juan Zuluaga-Gomez, Amrutha Prasad, Seyyed Saeed
Sarfjoo, Petr Motlicek
- Abstract要約: ASR法とNLP法の利点を組み合わせることで,コールサインの認識が大幅に向上することが証明された。
ASR法とNLP法の組み合わせでコールサインn-gramを増強すると、絶対値の53.7%、相対値の60.4%のコールサイン認識が改善される。
- 参考スコア(独自算出の注目度): 1.3229510087215552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR), as the assistance of speech communication
between pilots and air-traffic controllers, can significantly reduce the
complexity of the task and increase the reliability of transmitted information.
ASR application can lead to a lower number of incidents caused by
misunderstanding and improve air traffic management (ATM) efficiency.
Evidently, high accuracy predictions, especially, of key information, i.e.,
callsigns and commands, are required to minimize the risk of errors. We prove
that combining the benefits of ASR and Natural Language Processing (NLP)
methods to make use of surveillance data (i.e. additional modality) helps to
considerably improve the recognition of callsigns (named entity). In this
paper, we investigate a two-step callsign boosting approach: (1) at the 1 step
(ASR), weights of probable callsign n-grams are reduced in G.fst and/or in the
decoding FST (lattices), (2) at the 2 step (NLP), callsigns extracted from the
improved recognition outputs with Named Entity Recognition (NER) are correlated
with the surveillance data to select the most suitable one. Boosting callsign
n-grams with the combination of ASR and NLP methods eventually leads up to
53.7% of an absolute, or 60.4% of a relative, improvement in callsign
recognition.
- Abstract(参考訳): 自動音声認識(asr)は、パイロットと航空管制官間の音声通信の補助として、タスクの複雑さを著しく低減し、送信情報の信頼性を高めることができる。
ASRの応用は誤解による事故件数が減少し、航空交通管理(ATM)の効率が向上する可能性がある。
特に重要な情報、例えばコールサインやコマンドの精度の高い予測は、エラーのリスクを最小限に抑えるために必要である。
ASRと自然言語処理(NLP)の利点を組み合わせることで、監視データ(つまり追加のモダリティ)がコールサイン(名前付きエンティティ)の認識を大幅に改善することを証明する。
本稿では,(1)1ステップ(ASR)において,G.fstおよび/または復号FST(lattices)において,確率的符号n-gramの重みが減少し,(2)2ステップ(NLP)では,名前付きエンティティ認識(NER)による認識出力の改善から抽出されたコールサインが,監視データと相関して最も適切なものを選択する。
コールサインn-gramをASR法とNLP法の組み合わせで増強すると、絶対値の53.7%、相対値の60.4%のコールサイン認識が向上する。
関連論文リスト
- Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement [53.044703127757295]
教師なし学習 可視赤外人物再識別 (USL-VI-ReID) は、ラベルなしのクロスモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
本稿では,生成したラベルを1つのモダリティからそれに対応するモダリティに同時に割り当てる,Dual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。
提案したDOTLA機構は、相互強化と相互モダリティデータアソシエーションの効率的な解を定式化することにより、不十分でノイズの多いラベルアソシエーションの副作用を効果的に低減することができる。
論文 参考訳(メタデータ) (2023-05-22T04:40:30Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Improving callsign recognition with air-surveillance data in air-traffic
communication [1.6058099298620423]
音声認識は、パイロットと航空交通管制官の間の音声通信の補助として使用できる。
エラーのリスクを最小限に抑えるためには、高精度な予測が必要である。
この結果から,着信信号を含む監視データは,発声における着信信号の認識を著しく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2021-08-27T07:56:47Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。