論文の概要: ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic
Control Using Multi-Objective Learning
- arxiv url: http://arxiv.org/abs/2312.06118v1
- Date: Mon, 11 Dec 2023 04:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:51:58.111403
- Title: ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic
Control Using Multi-Objective Learning
- Title(参考訳): rose: 多目的学習を用いた航空交通制御における認識指向音声強調フレームワーク
- Authors: Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin
- Abstract要約: 音声認識能力の向上とASRの精度向上を目的として,音声認識指向音声強調(ROSE)フレームワークを提案する。
実世界の収集コーパスに基づく無線音声エコーを除去するために,エンコーダデコーダに基づくU-Netフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.216270043333772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radio speech echo is a specific phenomenon in the air traffic control (ATC)
domain, which degrades speech quality and further impacts automatic speech
recognition (ASR) accuracy. In this work, a recognition-oriented speech
enhancement (ROSE) framework is proposed to improve speech intelligibility and
also advance ASR accuracy, which serves as a plug-and-play tool in ATC
scenarios and does not require additional retraining of the ASR model.
Specifically, an encoder-decoder-based U-Net framework is proposed to eliminate
the radio speech echo based on the real-world collected corpus. By
incorporating the SE-oriented and ASR-oriented loss, ROSE is implemented in a
multi-objective manner by learning shared representations across the two
optimization objectives. An attention-based skip-fusion (ABSF) mechanism is
applied to skip connections to refine the features. A channel and sequence
attention (CSAtt) block is innovatively designed to guide the model to focus on
informative representations and suppress disturbing features. The experimental
results show that the ROSE significantly outperforms other state-of-the-art
methods for both the SE and ASR tasks. In addition, the proposed approach can
contribute to the desired performance improvements on public datasets.
- Abstract(参考訳): 無線音声エコーは、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、さらに自動音声認識(ASR)の精度に影響を及ぼす。
本研究では、音声認識指向音声強調(ROSE)フレームワークを提案し、音声認識の可知性の向上と、ATCシナリオにおけるプラグアンドプレイツールとして機能し、ASRモデルの追加的な再訓練を必要としないASR精度の向上を図る。
具体的には、実世界の収集コーパスに基づいて、無線音声エコーを除去するエンコーダデコーダベースのU-Netフレームワークを提案する。
SE指向とASR指向の損失を取り入れることで、ROSEは2つの最適化目標に対して共有表現を学習することで多目的的に実装される。
注意に基づくスキップ・フュージョン(ABSF)機構は、接続をスキップして特徴を洗練させる。
チャネル・アンド・シーケンス・アテンション(CSAtt)ブロックは、情報表現に集中し、乱れた特徴を抑制するようモデルに誘導するように革新的に設計されている。
実験の結果,ROSEはSEタスクとASRタスクの両方において,他の最先端手法よりも有意に優れていた。
さらに、提案されたアプローチは、パブリックデータセットにおける望ましいパフォーマンス改善に寄与することができる。
関連論文リスト
- Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained
ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。
本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-03-31T13:32:51Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。