論文の概要: Deep neural network techniques for monaural speech enhancement: state of
the art analysis
- arxiv url: http://arxiv.org/abs/2212.00369v2
- Date: Tue, 20 Jun 2023 14:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:00:05.334988
- Title: Deep neural network techniques for monaural speech enhancement: state of
the art analysis
- Title(参考訳): モノラル音声強調のためのディープニューラルネットワーク技術--アート分析の現状
- Authors: Peter Ochieng
- Abstract要約: 自然言語処理やコンピュータビジョンといった領域では、ディープニューラルネットワーク(DNN)技術が普及している。
DNNモデルは、デノシング、デバーベーション、マルチスピーカ分離を実現するために、音声強調領域に応用されている。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNN) techniques have become pervasive in domains such
as natural language processing and computer vision. They have achieved great
success in these domains in task such as machine translation and image
generation. Due to their success, these data driven techniques have been
applied in audio domain. More specifically, DNN models have been applied in
speech enhancement domain to achieve denosing, dereverberation and
multi-speaker separation in monaural speech enhancement. In this paper, we
review some dominant DNN techniques being employed to achieve speech
separation. The review looks at the whole pipeline of speech enhancement from
feature extraction, how DNN based tools are modelling both global and local
features of speech and model training (supervised and unsupervised). We also
review the use of speech-enhancement pre-trained models to boost speech
enhancement process. The review is geared towards covering the dominant trends
with regards to DNN application in speech enhancement in speech obtained via a
single speaker.
- Abstract(参考訳): 自然言語処理やコンピュータビジョンといった領域では、ディープニューラルネットワーク(DNN)技術が普及している。
彼らは機械翻訳や画像生成といったタスクでこれらの領域で大きな成功を収めた。
その成功により、これらのデータ駆動技術はオーディオ領域に応用されている。
より具体的には、dnnモデルが音声強調領域に応用され、単調音声強調においてデノシング、デノベーション、マルチスピーカー分離を達成する。
本稿では,音声分離のためのDNN手法について概説する。
このレビューでは、特徴抽出による音声強調のパイプライン全体、DNNベースのツールが、音声とモデルトレーニング(教師なし、教師なし)のグローバルな特徴とローカルな特徴の両方をモデル化している様子を取り上げている。
また,音声強調のための事前訓練モデルについても検討した。
本研究は,単一話者による音声強調におけるDNNの適用について,支配的な傾向をカバーすることを目的としている。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Employing Hybrid Deep Neural Networks on Dari Speech [0.0]
本稿では,Mel- frequency cepstral coefficients (MFCCs) 特徴抽出法を用いて,Dari言語における個々の単語の認識に焦点を当てる。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)の3つの異なるディープニューラルネットワークモデルを評価する。
論文 参考訳(メタデータ) (2023-05-04T23:10:53Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - A Training Framework for Stereo-Aware Speech Enhancement using Deep
Neural Networks [34.012007729454815]
音声強調のための新しいステレオ認識フレームワークを提案する。
提案するフレームワークはモデルに依存しないので,ディープラーニングベースのアーキテクチャにも適用可能だ。
画像保存損失を正規化することにより、全体的な性能が向上し、音声のステレオ的側面がより保存されることが示される。
論文 参考訳(メタデータ) (2021-12-09T14:13:41Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for
Voice Activity Detection [30.46050153776374]
音声活動検出(VAD)は、音声と非音声を区別する。
ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。
本稿では,VADタスクを終了させるためにMLNETと呼ばれる適応型マルチレセプティブ・アテンション・ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:24:28Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。