論文の概要: Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
- arxiv url: http://arxiv.org/abs/2411.19770v1
- Date: Fri, 29 Nov 2024 15:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:14.075861
- Title: Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
- Title(参考訳): Noro:隠れた話者表現機能を備えたノイズロスワンショット音声変換システム
- Authors: Haorui He, Yuchen Song, Yuancheng Wang, Haoyang Li, Xueyao Zhang, Li Wang, Gongping Huang, Eng Siong Chng, Zhizheng Wu,
- Abstract要約: ワンショット音声変換(VC)は、音源話者からの発声の音色を変化させ、ターゲット話者の音色と一致させることを目的としている。
ワンショットVCの進歩にもかかわらず、その効果は、インターネットからしばしば引き起こされる参照スピーチが背景ノイズのような様々な障害を含む現実のシナリオにおいて減少する。
- 参考スコア(独自算出の注目度): 29.692178856614014
- License:
- Abstract: One-shot voice conversion (VC) aims to alter the timbre of speech from a source speaker to match that of a target speaker using just a single reference speech from the target, while preserving the semantic content of the original source speech. Despite advancements in one-shot VC, its effectiveness decreases in real-world scenarios where reference speeches, often sourced from the internet, contain various disturbances like background noise. To address this issue, we introduce Noro, a Noise Robust One-shot VC system. Noro features innovative components tailored for VC using noisy reference speeches, including a dual-branch reference encoding module and a noise-agnostic contrastive speaker loss. Experimental results demonstrate that Noro outperforms our baseline system in both clean and noisy scenarios, highlighting its efficacy for real-world applications. Additionally, we investigate the hidden speaker representation capabilities of our baseline system by repurposing its reference encoder as a speaker encoder. The results shows that it is competitive with several advanced self-supervised learning models for speaker representation under the SUPERB settings, highlighting the potential for advancing speaker representation learning through one-shot VC task.
- Abstract(参考訳): ワンショット音声変換(VC)は、ソース話者からの音声の音色を変え、ターゲットからの単一の参照音声のみを用いてターゲット話者の音色と一致させ、元のソース音声の意味的内容を保存することを目的としている。
ワンショットVCの進歩にもかかわらず、その効果は、インターネットからしばしば引き起こされる参照スピーチが背景ノイズのような様々な障害を含む現実のシナリオにおいて減少する。
この問題に対処するため,ノイズロバストワンショットVCシステムであるNoroを紹介した。
Noroは、二分岐参照符号化モジュールやノイズ非依存の対照的な話者損失など、ノイズレファレンスを使用してVC向けに調整された革新的なコンポーネントを備えている。
実験の結果,ノロはクリーンかつノイズの多いシナリオにおいてベースラインシステムよりも優れており,実世界のアプリケーションに有効であることがわかった。
さらに,基準エンコーダをスピーカエンコーダとして再利用することで,ベースラインシステムの隠れ話者表現能力について検討する。
その結果、SUPERB設定下での話者表現のための先進的な自己教師型学習モデルと競合し、ワンショットVCタスクによる話者表現学習の進展の可能性を強調した。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross
Attention [24.842378497026154]
SEF-VCは、話者埋め込み自由音声変換モデルである。
話者の音色を、強力な位置非依存のクロスアテンション機構を通じて参照音声から学習し、組み込む。
HuBERTセマンティックトークンからの波形を非自己回帰的に再構成する。
論文 参考訳(メタデータ) (2023-12-14T06:26:55Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System
for Both Human Beings and Machines [15.087294549955304]
本研究の目的は,音声の話者内容のアンタングル化のための中間表現を得ることである。
本システムでは,音声のクローン性能を維持するために,話者情報制御を付加する。
その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減することがわかった。
論文 参考訳(メタデータ) (2021-11-06T06:22:45Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。