論文の概要: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding
- arxiv url: http://arxiv.org/abs/2412.20467v1
- Date: Sun, 29 Dec 2024 13:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.622458
- Title: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding
- Title(参考訳): エッジケースロバストコールサイン認識と理解のためのマルチモーダルデータの利用
- Authors: Alexander Blatt, Dietrich Klakow,
- Abstract要約: アーキテクチャの堅牢性は、特にエッジケースでは明らかです。
マルチモーダルコールサインコマンドリカバリモデル(CCR)を提案する。
CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。
- 参考スコア(独自算出の注目度): 65.55175502273013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operational machine-learning based assistant systems must be robust in a wide range of scenarios. This hold especially true for the air-traffic control (ATC) domain. The robustness of an architecture is particularly evident in edge cases, such as high word error rate (WER) transcripts resulting from noisy ATC recordings or partial transcripts due to clipped recordings. To increase the edge-case robustness of call-sign recognition and understanding (CRU), a core tasks in ATC speech processing, we propose the multimodal call-sign-command recovery model (CCR). The CCR architecture leads to an increase in the edge case performance of up to 15%. We demonstrate this on our second proposed architecture, CallSBERT. A CRU model that has less parameters, can be fine-tuned noticeably faster and is more robust during fine-tuning than the state of the art for CRU. Furthermore, we demonstrate that optimizing for edge cases leads to a significantly higher accuracy across a wide operational range.
- Abstract(参考訳): 操作機械学習ベースのアシスタントシステムは、幅広いシナリオにおいて堅牢でなければならない。
これは特にATC(Air-traffic Control)ドメインに当てはまる。
アーキテクチャのロバスト性は特に、ノイズの多いATC記録による高単語誤り率(WER)書き起こしや、クリップされた記録による部分書き起こしなどのエッジケースで顕著である。
ATC音声処理におけるコアタスクであるコールサイン認識・理解(CRU)のエッジケースロバスト性を高めるために,マルチモーダルなコールサイン・コマンド・リカバリモデル(CCR)を提案する。
CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。
これを2つ目のアーキテクチャであるCallSBERTで実証します。
パラメータが少ないCRUモデルは、CRUの最先端技術よりも顕著に高速で、微調整時に堅牢である。
さらに,エッジケースの最適化により,幅広い操作範囲にわたる精度が著しく向上することが実証された。
関連論文リスト
- On the Practice of Deep Hierarchical Ensemble Network for Ad Conversion Rate Prediction [14.649184507551436]
本稿では,DHENを単一のバックボーンモデルアーキテクチャとして用いたマルチタスク学習フレームワークを提案する。
我々は,CVR予測のために,オンサイトリアルタイムユーザ行動シーケンスとオフサイト変換イベントシーケンスの両方を構築した。
本手法は,事前学習したユーザパーソナライズ機能付き単一機能横断モジュールと比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T23:41:34Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping [27.547461769425855]
Per-core clip-ping (PCC) は、ASRモデルにおける意図しない記憶を効果的に緩和することができる。
PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の削減につながった。
論文 参考訳(メタデータ) (2024-06-04T06:34:33Z) - A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness [17.0639534812572]
ARC-Tranは、任意の摂動空間に対してデコーダのみの変換器の堅牢性を検証する新しい手法である。
本評価の結果,ARC-Tran 列車は既存の手法よりも任意の摂動空間に頑健なモデルであることがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:10:04Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。