論文の概要: Full Attention Bidirectional Deep Learning Structure for Single Channel
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2108.12105v1
- Date: Fri, 27 Aug 2021 03:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 18:52:30.236892
- Title: Full Attention Bidirectional Deep Learning Structure for Single Channel
Speech Enhancement
- Title(参考訳): 単一チャンネル音声強調のためのフルアテンション双方向深層学習構造
- Authors: Yuzi Yan, Wei-Qiang Zhang, Michael T. Johnson
- Abstract要約: 音声強調は音声信号処理において重要な領域である。
モデルは双方向シーケンス・ツー・シーケンス方式に「フル」アテンション機構を導入する。
- 参考スコア(独自算出の注目度): 10.858200285592156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the cornerstone of other important technologies, such as speech
recognition and speech synthesis, speech enhancement is a critical area in
audio signal processing. In this paper, a new deep learning structure for
speech enhancement is demonstrated. The model introduces a "full" attention
mechanism to a bidirectional sequence-to-sequence method to make use of latent
information after each focal frame. This is an extension of the previous
attention-based RNN method. The proposed bidirectional attention-based
architecture achieves better performance in terms of speech quality (PESQ),
compared with OM-LSA, CNN-LSTM, T-GSA and the unidirectional attention-based
LSTM baseline.
- Abstract(参考訳): 音声認識や音声合成などの他の重要な技術の基礎として、音声信号処理において音声強調は重要な領域である。
本稿では,音声強調のための新しい深層学習構造について述べる。
モデルでは,各焦点フレームの後に潜在情報を利用する双方向シーケンシャル・ツー・シーケンス法に"フル"な注意機構を導入する。
これは従来の注目に基づくRNN手法の拡張である。
提案アーキテクチャは,OM-LSA,CNN-LSTM,T-GSA,一方向注意に基づくLSTMベースラインと比較して,音声品質(PESQ)において優れた性能を実現する。
関連論文リスト
- Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement [7.789114492151524]
異種空間特徴を統合し,二次元アテンション機構を組み込んだ新しい音声強調フレームワークHFSDAを提案する。
提案モデルは,高レベルな意味情報と詳細なスペクトルデータの両方を抽出し,より詳細な分析と音声信号の改良を可能にする。
我々は、時間次元だけでなくスペクトル領域にわたって特徴抽出能力を高めることで、コンフォーマーモデルを洗練する。
論文 参考訳(メタデータ) (2024-08-13T14:04:24Z) - On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification [0.0]
本稿では,音声の了解度予測のためのアテンション機構を備えたLSTMネットワークに基づく非侵入システムを提案する。
LSTMフレームワークにフレームごとの音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について検討した。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
論文 参考訳(メタデータ) (2024-02-05T10:26:28Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。