論文の概要: HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech
Deep Features in Adversarial Networks
- arxiv url: http://arxiv.org/abs/2006.05694v2
- Date: Mon, 21 Sep 2020 20:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:35:04.919306
- Title: HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech
Deep Features in Adversarial Networks
- Title(参考訳): HiFi-GAN:敵対的ネットワークにおける音声深度特徴に基づく高忠実デノベーション・デノベーション
- Authors: Jiaqi Su, Zeyu Jin, Adam Finkelstein
- Abstract要約: HiFi-GANは録音された音声をスタジオで録音されたかのように音に変換する。
強調音声の知覚的品質を改善するために、識別器の深い特徴マッチング損失に依存している。
客観的および主観的な実験において、最先端のベースライン法を著しく上回る。
- 参考スコア(独自算出の注目度): 29.821666380496637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world audio recordings are often degraded by factors such as noise,
reverberation, and equalization distortion. This paper introduces HiFi-GAN, a
deep learning method to transform recorded speech to sound as though it had
been recorded in a studio. We use an end-to-end feed-forward WaveNet
architecture, trained with multi-scale adversarial discriminators in both the
time domain and the time-frequency domain. It relies on the deep feature
matching losses of the discriminators to improve the perceptual quality of
enhanced speech. The proposed model generalizes well to new speakers, new
speech content, and new environments. It significantly outperforms
state-of-the-art baseline methods in both objective and subjective experiments.
- Abstract(参考訳): 実世界のオーディオ録音は、しばしばノイズ、残響、等化歪みなどの要因によって劣化する。
本稿では,スタジオで録音された音声を音声に変換する深層学習手法であるhifi-ganについて述べる。
我々は、時間領域と時間周波数領域の両方において、マルチスケールの敵判別器で訓練されたエンドツーエンドフィードフォワードWaveNetアーキテクチャを使用する。
強調音声の知覚的品質を改善するために、識別器の深い特徴マッチング損失に依存する。
提案モデルは、新しい話者、新しい音声コンテンツ、新しい環境によく一般化する。
客観的および主観的な実験において、最先端のベースライン法を著しく上回る。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Universal Speech Enhancement with Score-based Diffusion [21.294665965300922]
本稿では,55種類の歪みに同時に対処するユニバーサル音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルとマルチレゾリューション・コンディショニング・ネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-06-07T07:32:32Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。