論文の概要: Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning
- arxiv url: http://arxiv.org/abs/2406.18313v2
- Date: Fri, 28 Jun 2024 11:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 11:00:13.969252
- Title: Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning
- Title(参考訳): 空港タワー指令認識の高度化:スクイーズ・アンド・エキサイティングと放送残差学習の統合
- Authors: Yuanxi Lin, Tonglin Zhou, Yang Xiao,
- Abstract要約: 本稿では,雑音環境や限られた計算資源など,音声コマンド認識の課題に対処する。
我々は、定期や緊急の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。
我々は,BC-SENetモデルにより,シャープ・アンド・エキサイティングおよびタイムフレーム・周波数ワイズ・アンド・エキサイティング技術を用いて,放送残差学習を強化した。
- 参考スコア(独自算出の注目度): 3.4540938725122285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate recognition of aviation commands is vital for flight safety and efficiency, as pilots must follow air traffic control instructions precisely. This paper addresses challenges in speech command recognition, such as noisy environments and limited computational resources, by advancing keyword spotting technology. We create a dataset of standardized airport tower commands, including routine and emergency instructions. We enhance broadcasted residual learning with squeeze-and-excitation and time-frame frequency-wise squeeze-and-excitation techniques, resulting in our BC-SENet model. This model focuses on crucial information with fewer parameters. Our tests on five keyword spotting models, including BC-SENet, demonstrate superior accuracy and efficiency. These findings highlight the effectiveness of our model advancements in improving speech command recognition for aviation safety and efficiency in noisy, high-stakes environments. Additionally, BC-SENet shows comparable performance on the common Google Speech Command dataset.
- Abstract(参考訳): パイロットは航空管制の指示を正確に守らなければならないため、航空管制の正確な認識は飛行の安全性と効率に不可欠である。
本稿では,キーワードスポッティング技術の進歩により,雑音の多い環境や限られた計算資源といった音声コマンド認識の課題に対処する。
我々は、定期や緊急の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。
我々は,BC-SENetモデルにより,シャープ・アンド・エキサイティングおよびタイムフレーム・周波数ワイズ・アンド・エキサイティング技術を用いて,放送残差学習を強化した。
このモデルはより少ないパラメータで重要な情報に焦点を当てる。
BC-SENetを含む5つのキーワードスポッティングモデルに対するテストでは、精度と効率が向上した。
これらの結果から,高騒音環境下での航空安全・効率向上のための音声認識におけるモデル改良の有効性が示唆された。
さらに、BC-SENetは一般的なGoogle Speech Commandデータセットで同等のパフォーマンスを示している。
関連論文リスト
- Multi-stage Learning for Radar Pulse Activity Segmentation [51.781832424705094]
無線信号認識は電子戦において重要な機能である。
電子戦システムでは、レーダパルス活動の正確な識別と位置決めが要求される。
ディープラーニングに基づくレーダーパルス活動認識法は、ほとんど未検討のままである。
論文 参考訳(メタデータ) (2023-12-15T01:56:27Z) - VBSF-TLD: Validation-Based Approach for Soft Computing-Inspired Transfer
Learning in Drone Detection [0.0]
本稿では,コンピュータビジョンベースモジュールの不可欠な部分を構成する移動型ドローン検出手法を提案する。
事前学習されたモデルの知識を関連ドメインから活用することにより、限られたトレーニングデータであっても、トランスファー学習によりより良い結果が得られる。
特に、このスキームの有効性は、IOUベースの検証結果によって強調される。
論文 参考訳(メタデータ) (2023-06-11T22:30:23Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - Improving performance of aircraft detection in satellite imagery while
limiting the labelling effort: Hybrid active learning [0.9379652654427957]
防衛分野では、衛星画像上の航空機検出はアナリストにとって貴重なツールである。
本稿では,ラベルに最も関連性の高いデータを選択するためのハイブリッドクラスタリング能動的学習手法を提案する。
本手法は,他の能動的学習法と比較して,優れた,あるいは競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-10T08:24:07Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。