論文の概要: PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings,
Semi-Supervised Conversational Data, and Biased Loss
- arxiv url: http://arxiv.org/abs/2008.04470v1
- Date: Tue, 11 Aug 2020 01:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:38:05.850028
- Title: PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings,
Semi-Supervised Conversational Data, and Biased Loss
- Title(参考訳): poconet:周波数位置埋め込み、半教師あり会話データ、バイアス付き損失による音声強調
- Authors: Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim
Helwani, Arvindh Krishnaswamy
- Abstract要約: PoCoNetは畳み込みニューラルネットワークで、周波数位置埋め込みを用いることで、初期のレイヤで周波数依存の機能をより効率的に構築することができる。
半教師付き手法は、ノイズの多いデータセットを事前に拡張することで、会話訓練データの量を増やすのに役立つ。
音声品質の保存に偏った新たな損失関数は、音声品質に対する人間の知覚的意見をよりよく一致させるのに役立つ。
- 参考スコア(独自算出の注目度): 26.851416177670096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network applications generally benefit from larger-sized models, but
for current speech enhancement models, larger scale networks often suffer from
decreased robustness to the variety of real-world use cases beyond what is
encountered in training data. We introduce several innovations that lead to
better large neural networks for speech enhancement. The novel PoCoNet
architecture is a convolutional neural network that, with the use of
frequency-positional embeddings, is able to more efficiently build
frequency-dependent features in the early layers. A semi-supervised method
helps increase the amount of conversational training data by pre-enhancing
noisy datasets, improving performance on real recordings. A new loss function
biased towards preserving speech quality helps the optimization better match
human perceptual opinions on speech quality. Ablation experiments and objective
and human opinion metrics show the benefits of the proposed improvements.
- Abstract(参考訳): ニューラルネットワークアプリケーションは通常、より大きなモデルの恩恵を受けるが、現在の音声強調モデルでは、大規模なネットワークは、トレーニングデータで遭遇する以上のさまざまな実世界のユースケースに対する堅牢性の低下に悩まされることが多い。
音声強調のための大規模ニューラルネットワークの改善につながるいくつかのイノベーションを紹介します。
新しいpoconetアーキテクチャは畳み込みニューラルネットワークであり、周波数位置埋め込みを使うことで、初期の層で周波数依存の特徴をより効率的に構築することができる。
半教師付き手法は、ノイズの多いデータセットを事前に拡張することで会話訓練データの量を増やし、実際の録音の性能を向上させる。
音声品質の保持に偏りのある新たな損失関数は、人間の知覚的意見を音声品質に合致させるのに役立つ。
アブレーション実験と客観的評価指標は,提案する改善の利点を示す。
関連論文リスト
- Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - Efficient Online Processing with Deep Neural Networks [1.90365714903665]
この論文は、ニューラルネットワークの効率性に特化しています。特に、コアコントリビューションは、オンライン推論の効率面に対処します。
これらの進歩は、ボトムアップの計算再構成と司法的なアーキテクチャ修正によって達成される。
論文 参考訳(メタデータ) (2023-06-23T12:29:44Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - On the role of feedback in visual processing: a predictive coding
perspective [0.6193838300896449]
我々は、フィードフォワード視覚処理のモデルとして深層畳み込みネットワーク(CNN)を検討し、予測符号化(PC)ダイナミクスを実装した。
ノイズレベルが増加するにつれて、ネットワークはますますトップダウンの予測に依存している。
さらに,PCダイナミクスを実装するネットワークの精度は,等価なフォワードネットワークに比べて時間経過とともに著しく向上する。
論文 参考訳(メタデータ) (2021-06-08T10:07:23Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。