論文の概要: Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2407.18571v2
- Date: Mon, 29 Jul 2024 07:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:35:35.321597
- Title: Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks
- Title(参考訳): 音声帯域幅拡大と高忠実性生成対向ネットワーク
- Authors: Mahmoud Salhab, Haidar Harmanani,
- Abstract要約: 音声帯域拡張は,デジタルアプリケーションにおける音質と知覚性の向上に不可欠である。
本稿では,カスケードシステムとは異なり,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech bandwidth expansion is crucial for expanding the frequency range of low-bandwidth speech signals, thereby improving audio quality, clarity and perceptibility in digital applications. Its applications span telephony, compression, text-to-speech synthesis, and speech recognition. This paper presents a novel approach using a high-fidelity generative adversarial network, unlike cascaded systems, our system is trained end-to-end on paired narrowband and wideband speech signals. Our method integrates various bandwidth upsampling ratios into a single unified model specifically designed for speech bandwidth expansion applications. Our approach exhibits robust performance across various bandwidth expansion factors, including those not encountered during training, demonstrating zero-shot capability. To the best of our knowledge, this is the first work to showcase this capability. The experimental results demonstrate that our method outperforms previous end-to-end approaches, as well as interpolation and traditional techniques, showcasing its effectiveness in practical speech enhancement applications.
- Abstract(参考訳): 音声帯域拡張は低帯域音声信号の周波数範囲の拡大に不可欠であり,デジタルアプリケーションにおける音質,明瞭度,知覚性の向上に寄与する。
その用途は電話、圧縮、音声合成、音声認識に及んでいる。
本稿では,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
本手法は、訓練中に遭遇しないものやゼロショット機能など、様々な帯域拡大要因に対して頑健な性能を示す。
私たちの知る限りでは、この機能を披露するのはこれが初めてです。
実験の結果,提案手法は補間や従来の手法と同様に従来のエンドツーエンド手法よりも優れており,実用的な音声強調手法としての有効性が示された。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Analysing Diffusion-based Generative Approaches versus Discriminative
Approaches for Speech Restoration [16.09633286837904]
生成拡散モデルの性能と異なる音声復元作業における識別的アプローチを系統的に比較する。
生成的アプローチは、すべてのタスクにおいて、識別的アプローチよりも全世界的に優れていることを観察する。
論文 参考訳(メタデータ) (2022-11-04T12:06:14Z) - Universal Speech Enhancement with Score-based Diffusion [21.294665965300922]
本稿では,55種類の歪みに同時に対処するユニバーサル音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルとマルチレゾリューション・コンディショニング・ネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-06-07T07:32:32Z) - HiFi++: a Unified Framework for Bandwidth Extension and Speech
Enhancement [3.6731536660959985]
帯域拡張と音声強調のための新しいHiFi++フレームワークを提案する。
改良されたジェネレータアーキテクチャにより、HiFi++は、これらのタスクにおける最先端技術と、より良く、または互換性を持って機能することを示す。
論文 参考訳(メタデータ) (2022-03-24T14:25:51Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。