論文の概要: In-domain SSL pre-training and streaming ASR
- arxiv url: http://arxiv.org/abs/2509.12101v1
- Date: Mon, 15 Sep 2025 16:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.397698
- Title: In-domain SSL pre-training and streaming ASR
- Title(参考訳): ドメイン内SSL事前トレーニングとストリーミングASR
- Authors: Jarod Duret, Salima Mdhaffar, Gaëlle Laperrière, Ryan Whetten, Audrey Galametz, Catherine Kobus, Marion-Cécile Martin, Jo Oleiwan, Yannick Estève,
- Abstract要約: ラベルなしATCデータの4.5k時間でBEST-RQモデルをトレーニングし、より小さな教師付きATCセットで微調整する。
我々は、これらのドメイン内SSLモデルと、w2v-BERT 2.0やHuBERTのような最先端の汎用音声エンコーダを比較した。
その結果,ドメイン適応型事前学習は標準ATCベンチマークの性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 11.496573723272796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate the benefits of domain-specific self-supervised pre-training for both offline and streaming ASR in Air Traffic Control (ATC) environments. We train BEST-RQ models on 4.5k hours of unlabeled ATC data, then fine-tune on a smaller supervised ATC set. To enable real-time processing, we propose using chunked attention and dynamic convolutions, ensuring low-latency inference. We compare these in-domain SSL models against state-of-the-art, general-purpose speech encoders such as w2v-BERT 2.0 and HuBERT. Results show that domain-adapted pre-training substantially improves performance on standard ATC benchmarks, significantly reducing word error rates when compared to models trained on broad speech corpora. Furthermore, the proposed streaming approach further improves word error rate under tighter latency constraints, making it particularly suitable for safety-critical aviation applications. These findings highlight that specializing SSL representations for ATC data is a practical path toward more accurate and efficient ASR systems in real-world operational settings.
- Abstract(参考訳): 本研究では,エアトラヒックコントロール(ATC)環境において,オフラインおよびストリーミングASRの両方に対して,ドメイン固有の自己教師付き事前学習の利点について検討する。
ラベルなしATCデータの4.5k時間でBEST-RQモデルをトレーニングし、より小さな教師付きATCセットで微調整する。
リアルタイム処理を実現するために,チャンクアテンションと動的畳み込みを併用し,低遅延推論を実現することを提案する。
我々は、これらのドメイン内SSLモデルと、w2v-BERT 2.0やHuBERTのような最先端の汎用音声エンコーダを比較した。
その結果、ドメイン適応型事前学習は標準ATCベンチマークの性能を大幅に向上させ、広範音声コーパスで訓練されたモデルと比較して単語誤り率を大幅に低下させることが示された。
さらに,提案手法により,レイテンシ制約の厳格化による単語誤り率の向上が図られ,特に安全クリティカルな航空用途に向いている。
これらの結果から,ATCデータのSSL表現を専門化することは,実世界の運用環境において,より正確で効率的なASRシステムを実現するための実践的な道筋であることが示唆された。
関連論文リスト
- Age of Information Minimization in UAV-Enabled Integrated Sensing and Communication Systems [34.92822911897626]
統合センシング通信(ISAC)機能を備えた無人航空機(UAV)は、将来の無線ネットワークにおいて重要な役割を果たすと想定されている。
ターゲットセンシングとマルチユーザ通信を同時に行う老化情報(AoI)システムを提案する。
論文 参考訳(メタデータ) (2025-07-18T18:17:09Z) - FRSICL: LLM-Enabled In-Context Learning Flight Resource Allocation for Fresh Data Collection in UAV-Assisted Wildfire Monitoring [14.068881151569435]
無人航空機(UAV)は、特に早期発見が環境への影響を最小限に抑える山火事の監視において、公共の安全のために不可欠である。
UAV-Assisted Wildfire Monitoring (UAWM)システムでは、センサの送信スケジューリングと速度の協調最適化が、古いセンサデータから情報時代(AoI)を最小化するために重要である。
深層強化学習(DRL)はそのような最適化に使われてきたが、サンプリング効率の低下、シミュレーションと現実のギャップ、複雑なトレーニングといった制限により、山火事モニタリングのような時間クリティカルなアプリケーションには適さない。
本稿では,新しいオンライン航空資源割当方式を提案する。
論文 参考訳(メタデータ) (2025-07-14T10:24:43Z) - Few-Shot Radar Signal Recognition through Self-Supervised Learning and Radio Frequency Domain Adaptation [48.265859815346985]
レーダー信号認識は電子戦(EW)において重要な役割を果たす
近年のディープラーニングの進歩は、レーダー信号認識の改善に大きな可能性を示している。
これらの手法は、注釈付き無線周波数(RF)データが少ない、あるいは入手できないEWシナリオでは不十分である。
論文 参考訳(メタデータ) (2025-01-07T01:35:56Z) - Automatic UAV-based Airport Pavement Inspection Using Mixed Real and
Virtual Scenarios [3.0874677990361246]
本稿では,UAVが捉えた画像を用いて,舗装の苦悩を自動的に識別する視覚的アプローチを提案する。
提案手法は,画像の欠陥を分割する深層学習(DL)に基づいている。
合成および実訓練画像からなる混合データセットを使用することで、実アプリケーションシナリオでトレーニングモデルをテストする場合、より良い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-11T16:30:07Z) - A LSTM and Cost-Sensitive Learning-Based Real-Time Warning for Civil
Aviation Over-limit [0.0]
QARデータ監視に基づいて,民間航空の過度限界に対するリアルタイム警告モデルを提案する。
提案モデルでは,F1スコアが0.991,精度が0.978であり,民間航空の過度なリアルタイム警告の有効性を示す。
論文 参考訳(メタデータ) (2023-05-08T10:56:06Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications [1.3800173438685746]
本研究は,事前学習と下流微調整の相違がデータに与える影響について検討する。
提案したモデルを4つの挑戦的なATCテストセットでベンチマークする。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
論文 参考訳(メタデータ) (2022-03-31T06:10:42Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Prediction of Traffic Flow via Connected Vehicles [77.11902188162458]
本稿では,交通機関が交通の流れを早期に制御し,渋滞を防止するための短期交通流予測フレームワークを提案する。
我々は,過去の流れデータと,コネクテッド・ビークル(CV)技術によって提供されるリアルタイムフィードや軌道データといった革新的な特徴に基づいて,将来の道路セグメントにおける流れを予測する。
本手法は, 流れの予測, CVが軌道に沿ったセグメントに現実的に遭遇する様々な事象の影響を組み込むことによって, 高度なモデリングを可能にすることを示す。
論文 参考訳(メタデータ) (2020-07-10T16:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。