論文の概要: SEANet: A Multi-modal Speech Enhancement Network
- arxiv url: http://arxiv.org/abs/2009.02095v2
- Date: Thu, 1 Oct 2020 17:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:25:12.605000
- Title: SEANet: A Multi-modal Speech Enhancement Network
- Title(参考訳): SEANet:マルチモーダル音声強調ネットワーク
- Authors: Marco Tagliasacchi, Yunpeng Li, Karolis Misiunas, Dominik Roblek
- Abstract要約: 我々は,加速度センサデータを利用して,雑音の多い環境下で音声強調を行う可能性を探る。
マルチモーダル入力を波動から波動までの完全畳み込みモデルであるSEANetに供給し、特徴損失と逆損失の組み合わせを用いて、ユーザの音声の強化バージョンを再構築する。
実験結果から,同じ声域の音声を干渉した場合であっても,非常に高品質な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 26.99180786187837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the possibility of leveraging accelerometer data to perform speech
enhancement in very noisy conditions. Although it is possible to only partially
reconstruct user's speech from the accelerometer, the latter provides a strong
conditioning signal that is not influenced from noise sources in the
environment. Based on this observation, we feed a multi-modal input to SEANet
(Sound EnhAncement Network), a wave-to-wave fully convolutional model, which
adopts a combination of feature losses and adversarial losses to reconstruct an
enhanced version of user's speech. We trained our model with data collected by
sensors mounted on an earbud and synthetically corrupted by adding different
kinds of noise sources to the audio signal. Our experimental results
demonstrate that it is possible to achieve very high quality results, even in
the case of interfering speech at the same level of loudness. A sample of the
output produced by our model is available at
https://google-research.github.io/seanet/multimodal/speech.
- Abstract(参考訳): 我々は,加速度センサデータを利用して雑音の多い環境で音声強調を行う可能性を探る。
加速度計からユーザの音声を部分的に再構築することは可能であるが、後者は環境のノイズ源から影響を受けない強いコンディショニング信号を提供する。
そこで,本研究では,特徴損失と逆損失を併用したウェーブ・トゥ・ウェーブ完全畳み込みモデルであるseanet (sound enhancement network) にマルチモーダル入力を供給し,ユーザの音声の強化版を再構築する。
耳介に装着したセンサから収集したデータを用いてモデルを訓練し,音声信号に様々なノイズ源を加えることで合成分解した。
実験の結果,同じレベルのラウドネスで音声を干渉する場合であっても,非常に高品質な結果が得られることがわかった。
我々のモデルが生成したアウトプットのサンプルはhttps://google-research.github.io/seanet/multimodal/speech.comで公開されている。
関連論文リスト
- Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Restoring degraded speech via a modified diffusion model [28.90259510094427]
本稿では、元の音声信号の復元を目的としたDiffWaveモデルの修正に基づくニューラルネットワークアーキテクチャを提案する。
DiffWave のmel-spectrum upsampler をディープ CNN upsampler に置き換えます。
提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。
論文 参考訳(メタデータ) (2021-04-22T23:03:23Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。