論文の概要: High Fidelity Speech Regeneration with Application to Speech Enhancement
- arxiv url: http://arxiv.org/abs/2102.00429v1
- Date: Sun, 31 Jan 2021 10:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 09:57:49.750935
- Title: High Fidelity Speech Regeneration with Application to Speech Enhancement
- Title(参考訳): 高忠実度音声再生と音声強調への応用
- Authors: Adam Polyak, Lior Wolf, Yossi Adi, Ori Kabeli, Yaniv Taigman
- Abstract要約: 本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
- 参考スコア(独自算出の注目度): 96.34618212590301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement has seen great improvement in recent years mainly through
contributions in denoising, speaker separation, and dereverberation methods
that mostly deal with environmental effects on vocal audio. To enhance speech
beyond the limitations of the original signal, we take a regeneration approach,
in which we recreate the speech from its essence, including the semi-recognized
speech, prosody features, and identity. We propose a wav-to-wav generative
model for speech that can generate 24khz speech in a real-time manner and which
utilizes a compact speech representation, composed of ASR and identity
features, to achieve a higher level of intelligibility. Inspired by voice
conversion methods, we train to augment the speech characteristics while
preserving the identity of the source using an auxiliary identity network.
Perceptual acoustic metrics and subjective tests show that the method obtains
valuable improvements over recent baselines.
- Abstract(参考訳): 近年の音声強調は, 主に聴覚障害, 話者分離, および発声音声に対する環境影響に対処する除音法への貢献を通じて, 顕著に改善されている。
元の信号の限界を超えてスピーチを高めるために、我々は、半認識音声、韻律の特徴、アイデンティティを含む、その本質からスピーチを再現する再生アプローチを取ります。
本研究では,24khzの音声をリアルタイムに生成し,asrとアイデンティティ特徴からなるコンパクトな音声表現を活用し,高いレベルの理解性を実現する音声生成モデルを提案する。
音声変換法に触発されて,補助idネットワークを用いて音源の識別性を維持しながら音声特性を増強する訓練を行った。
知覚音響測定と主観的テストにより,近年のベースラインよりも重要な改善が得られた。
関連論文リスト
- Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。