論文の概要: SNR-Based Teachers-Student Technique for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2005.14441v2
- Date: Thu, 29 Oct 2020 12:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:51:37.187857
- Title: SNR-Based Teachers-Student Technique for Speech Enhancement
- Title(参考訳): SNRに基づく教師の音声強調手法
- Authors: Xiang Hao, Xiangdong Su, Zhiyu Wang, Qiang Zhang, Huali Xu and
Guanglai Gao
- Abstract要約: そこで本研究では,SNRベースの教師支援技術と時間領域U-Netを統合し,この問題に対処する手法を提案する。
まず,教師が互いに一致しない複数の小範囲のSNRで教師モデルを訓練し,特定のSNR範囲内で適切に音声強調を行うようにした。
本研究では,SNRに基づく教師学生技術の有効性を実験的に分析し,提案手法をいくつかの最先端手法と比較した。
- 参考スコア(独自算出の注目度): 18.872544991355984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is very challenging for speech enhancement methods to achieves robust
performance under both high signal-to-noise ratio (SNR) and low SNR
simultaneously. In this paper, we propose a method that integrates an SNR-based
teachers-student technique and time-domain U-Net to deal with this problem.
Specifically, this method consists of multiple teacher models and a student
model. We first train the teacher models under multiple small-range SNRs that
do not coincide with each other so that they can perform speech enhancement
well within the specific SNR range. Then, we choose different teacher models to
supervise the training of the student model according to the SNR of the
training data. Eventually, the student model can perform speech enhancement
under both high SNR and low SNR. To evaluate the proposed method, we
constructed a dataset with an SNR ranging from -20dB to 20dB based on the
public dataset. We experimentally analyzed the effectiveness of the SNR-based
teachers-student technique and compared the proposed method with several
state-of-the-art methods.
- Abstract(参考訳): 高信号対雑音比(SNR)と低SNRの両条件で頑健な性能を実現するための音声強調手法は非常に困難である。
本稿では,SNRベースの教師支援技術と時間領域U-Netを統合し,この問題に対処する手法を提案する。
具体的には、複数の教師モデルと学生モデルから構成される。
まず,教師が互いに一致しない複数の小範囲のSNRで教師モデルを訓練し,特定のSNR範囲内で適切に音声強調を行うようにした。
そこで我々は,学生モデルの訓練を訓練データのSNRに従って監督するために,異なる教師モデルを選択する。
最終的に、学生モデルは高SNRと低SNRの両方で音声強調を行うことができる。
提案手法を評価するために,公開データセットに基づいて,-20dBから20dBまでのSNRを持つデータセットを構築した。
本手法の有効性を実験的に分析し,提案手法をいくつかの最先端手法と比較した。
関連論文リスト
- Boosting of Implicit Neural Representation-based Image Denoiser [2.2452191187045383]
Inlicit Neural Representation (INR) は、教師なし画像復調の有効な方法として登場した。
本稿では,画像認知におけるINRモデルの正規化のための一般的なレシピを提案する。
論文 参考訳(メタデータ) (2024-01-03T05:51:25Z) - CORN: Co-Trained Full- And No-Reference Speech Quality Assessment [16.23732004215614]
No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。
我々は、これらの2つのアプローチを調和させるCORNと呼ばれる新しいフレームワークを提案する。
CORNは、独立して訓練されたベースラインNRモデルより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-13T20:17:44Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Efficient Training of Deep Classifiers for Wireless Source
Identification using Test SNR Estimates [4.44483539967295]
本研究では,SNR(Test Signal to Noise Ratio)推定値が利用可能であれば,無線信号を処理する効率的なディープラーニング学習アルゴリズムについて検討する。
ベンチマークでは、よく知られた2つのデータセットに対するディープラーニングアルゴリズムのテストに、最近の文献に依存しています。
正のオフセットが小さい誤ったテストSNR推定は、負のオフセットを持つ同じ誤差のマグニチュードを持つものよりも訓練に適している。
論文 参考訳(メタデータ) (2019-12-26T16:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。