論文の概要: Listening to Sounds of Silence for Speech Denoising
- arxiv url: http://arxiv.org/abs/2010.12013v1
- Date: Thu, 22 Oct 2020 20:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:44:11.410521
- Title: Listening to Sounds of Silence for Speech Denoising
- Title(参考訳): 音声聴取における無音音の聴取
- Authors: Ruilin Xu, Rundi Wu, Yuko Ishiwaka, Carl Vondrick, Changxi Zheng
- Abstract要約: 記録された音声信号では、各文または単語の間にはしばしば短い一時停止がある。
単チャンネル音声のみを前提として、これらのサイレント区間を利用して自動音声認識モデルを学ぶ。
本手法は,訓練中に見つからない音声言語を認知するなど,優れた一般化特性を享受する。
- 参考スコア(独自算出の注目度): 37.67166050555209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a deep learning model for speech denoising, a long-standing
challenge in audio analysis arising in numerous applications. Our approach is
based on a key observation about human speech: there is often a short pause
between each sentence or word. In a recorded speech signal, those pauses
introduce a series of time periods during which only noise is present. We
leverage these incidental silent intervals to learn a model for automatic
speech denoising given only mono-channel audio. Detected silent intervals over
time expose not just pure noise but its time-varying features, allowing the
model to learn noise dynamics and suppress it from the speech signal.
Experiments on multiple datasets confirm the pivotal role of silent interval
detection for speech denoising, and our method outperforms several
state-of-the-art denoising methods, including those that accept only audio
input (like ours) and those that denoise based on audiovisual input (and hence
require more information). We also show that our method enjoys excellent
generalization properties, such as denoising spoken languages not seen during
training.
- Abstract(参考訳): 本稿では,音声分析における長年の課題である,音声認識のための深層学習モデルを提案する。
我々のアプローチは、人間の発話に関する重要な観察に基づいており、各文または単語の間には、しばしば短い一時停止がある。
記録された音声信号において、これらの停止は、ノイズのみが存在する一連の期間を導入する。
単チャンネル音声のみを前提とした自動発声モデルの学習には,これらのサイレント区間を利用する。
時間とともにサイレント区間を検出することで、純粋なノイズだけでなく、時間的な特徴も露呈し、モデルが雑音力学を学習し、音声信号から抑制することができる。
提案手法は,音声入力のみを受け入れるもの(例えば音声入力のみを受け入れるもの)や,音声視覚入力に基づいて発音するもの(従って,より多くの情報を必要とするもの)など,いくつかの最先端の聴取方法よりも優れている。
また,本手法は,訓練中に見ない音声言語を発音するなど,優れた一般化特性を享受できることを示す。
関連論文リスト
- Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Speech Denoising without Clean Training Data: a Noise2Noise Approach [0.0]
本稿では,深層学習に基づく音声復調法で求められるクリーンな音声データの重依存の問題に取り組む。
その結果, 雑音下音声サンプルのみを用いて, ディープ音声発声ネットワークの訓練が可能となった。
論文 参考訳(メタデータ) (2021-04-08T15:27:49Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。