論文の概要: Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo
Cancellation with Supervised Contrastive Learning
- arxiv url: http://arxiv.org/abs/2210.16791v2
- Date: Tue, 1 Nov 2022 14:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 10:27:42.939109
- Title: Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo
Cancellation with Supervised Contrastive Learning
- Title(参考訳): 教師付きコントラスト学習を用いた音響エコーキャンセラのための適応型音声品質認識複合ニューラルネットワーク
- Authors: Bozhong Liu, Xiaoxi Yu, Hantao Huang
- Abstract要約: エコーキャンセリングは、マイクロホン信号からエコー、残響、不要な付加音を取り除くように設計されている。
本稿では,適応型音声品質複合ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 3.1644851830271747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic echo cancellation (AEC) is designed to remove echoes, reverberation,
and unwanted added sounds from the microphone signal while maintaining the
quality of the near-end speaker's speech. This paper proposes adaptive speech
quality complex neural networks to focus on specific tasks for real-time
acoustic echo cancellation. In specific, we propose a complex modularize neural
network with different stages to focus on feature extraction, acoustic
separation, and mask optimization receptively. Furthermore, we adopt the
contrastive learning framework and novel speech quality aware loss functions to
further improve the performance. The model is trained with 72 hours for
pre-training and then 72 hours for fine-tuning. The proposed model outperforms
the state-of-the-art performance.
- Abstract(参考訳): 音響エコーキャンセリング(AEC)は、マイクロホン信号からエコー、残響、不要な付加音を除去し、ニアエンド話者の音声の品質を維持するように設計されている。
本稿では,適応型音声品質複雑なニューラルネットワークを提案する。
具体的には,特徴抽出,音響分離,マスク最適化に着目し,異なる段階の複雑なモジュール化ニューラルネットワークを提案する。
さらに、コントラスト学習フレームワークと新たな音声品質認識損失関数を採用し、さらに性能を向上させる。
このモデルは、事前訓練に72時間、微調整に72時間で訓練される。
提案したモデルは最先端の性能より優れている。
関連論文リスト
- UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Deep model with built-in self-attention alignment for acoustic echo
cancellation [1.30661828021882]
自己注意に基づくアライメントを組み込んだディープラーニングアーキテクチャを提案する。
本手法は, 実記録における遅延推定の困難さに対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-08-24T05:29:47Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - Residual acoustic echo suppression based on efficient multi-task
convolutional neural network [0.0]
本稿では,効率的な畳み込みニューラルネットワークを用いた実時間残響エコー抑圧法を提案する。
トレーニング基準は、残留エコーの抑制とニアエンド信号の歪みのバランスをとるために、抑制損失と呼ばれる新しい損失関数に基づいている。
論文 参考訳(メタデータ) (2020-09-29T11:26:25Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。