論文の概要: A Training Framework for Stereo-Aware Speech Enhancement using Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2112.04939v1
- Date: Thu, 9 Dec 2021 14:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 16:15:05.646141
- Title: A Training Framework for Stereo-Aware Speech Enhancement using Deep
Neural Networks
- Title(参考訳): ディープニューラルネットワークを用いたステレオ認識音声強調のための学習枠組み
- Authors: Bahareh Tolooshams and Kazuhito Koishida
- Abstract要約: 音声強調のための新しいステレオ認識フレームワークを提案する。
提案するフレームワークはモデルに依存しないので,ディープラーニングベースのアーキテクチャにも適用可能だ。
画像保存損失を正規化することにより、全体的な性能が向上し、音声のステレオ的側面がより保存されることが示される。
- 参考スコア(独自算出の注目度): 34.012007729454815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based speech enhancement has shown unprecedented performance in
recent years. The most popular mono speech enhancement frameworks are
end-to-end networks mapping the noisy mixture into an estimate of the clean
speech. With growing computational power and availability of multichannel
microphone recordings, prior works have aimed to incorporate spatial statistics
along with spectral information to boost up performance. Despite an improvement
in enhancement performance of mono output, the spatial image preservation and
subjective evaluations have not gained much attention in the literature. This
paper proposes a novel stereo-aware framework for speech enhancement, i.e., a
training loss for deep learning-based speech enhancement to preserve the
spatial image while enhancing the stereo mixture. The proposed framework is
model independent, hence it can be applied to any deep learning based
architecture. We provide an extensive objective and subjective evaluation of
the trained models through a listening test. We show that by regularizing for
an image preservation loss, the overall performance is improved, and the stereo
aspect of the speech is better preserved.
- Abstract(参考訳): 近年,ディープラーニングに基づく音声強調は前例のないパフォーマンスを示している。
最も一般的なモノラル音声強調フレームワークは、ノイズ混在をクリーン音声の推定にマッピングするエンドツーエンドネットワークである。
計算能力の増大とマルチチャネルマイクロホン記録の利用可能化により、従来の研究は空間統計とスペクトル情報を組み合わせて性能を高めることを目的としていた。
モノアウトプットのエンハンスメント性能は向上したが,空間的画像保存や主観評価は文献にはあまり注目されていない。
本稿では,音声強調のための新しいステレオ認識フレームワーク,すなわち,ステレオ混合を増強しながら空間画像を保存するための深層学習に基づく音声強調のための訓練損失を提案する。
提案するフレームワークはモデルに依存しないので,ディープラーニングベースのアーキテクチャにも適用可能だ。
聴取テストを通して訓練されたモデルの広範囲な客観的および主観評価を行う。
画像保存損失を正則化することにより、全体的な性能が向上し、音声のステレオ面の保存性が向上することを示す。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。