論文の概要: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding
- arxiv url: http://arxiv.org/abs/2412.20467v1
- Date: Sun, 29 Dec 2024 13:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:16.894550
- Title: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding
- Title(参考訳): エッジケースロバストコールサイン認識と理解のためのマルチモーダルデータの利用
- Authors: Alexander Blatt, Dietrich Klakow,
- Abstract要約: アーキテクチャの堅牢性は、特にエッジケースでは明らかです。
マルチモーダルコールサインコマンドリカバリモデル(CCR)を提案する。
CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。
- 参考スコア(独自算出の注目度): 65.55175502273013
- License:
- Abstract: Operational machine-learning based assistant systems must be robust in a wide range of scenarios. This hold especially true for the air-traffic control (ATC) domain. The robustness of an architecture is particularly evident in edge cases, such as high word error rate (WER) transcripts resulting from noisy ATC recordings or partial transcripts due to clipped recordings. To increase the edge-case robustness of call-sign recognition and understanding (CRU), a core tasks in ATC speech processing, we propose the multimodal call-sign-command recovery model (CCR). The CCR architecture leads to an increase in the edge case performance of up to 15%. We demonstrate this on our second proposed architecture, CallSBERT. A CRU model that has less parameters, can be fine-tuned noticeably faster and is more robust during fine-tuning than the state of the art for CRU. Furthermore, we demonstrate that optimizing for edge cases leads to a significantly higher accuracy across a wide operational range.
- Abstract(参考訳): 操作機械学習ベースのアシスタントシステムは、幅広いシナリオにおいて堅牢でなければならない。
これは特にATC(Air-traffic Control)ドメインに当てはまる。
アーキテクチャのロバスト性は特に、ノイズの多いATC記録による高単語誤り率(WER)書き起こしや、クリップされた記録による部分書き起こしなどのエッジケースで顕著である。
ATC音声処理におけるコアタスクであるコールサイン認識・理解(CRU)のエッジケースロバスト性を高めるために,マルチモーダルなコールサイン・コマンド・リカバリモデル(CCR)を提案する。
CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。
これを2つ目のアーキテクチャであるCallSBERTで実証します。
パラメータが少ないCRUモデルは、CRUの最先端技術よりも顕著に高速で、微調整時に堅牢である。
さらに,エッジケースの最適化により,幅広い操作範囲にわたる精度が著しく向上することが実証された。
関連論文リスト
- Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping [27.547461769425855]
Per-core clip-ping (PCC) は、ASRモデルにおける意図しない記憶を効果的に緩和することができる。
PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の削減につながった。
論文 参考訳(メタデータ) (2024-06-04T06:34:33Z) - A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness [17.0639534812572]
ARC-Tranは、任意の摂動空間に対してデコーダのみの変換器の堅牢性を検証する新しい手法である。
本評価の結果,ARC-Tran 列車は既存の手法よりも任意の摂動空間に頑健なモデルであることがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:10:04Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。