論文の概要: NTU-NPU System for Voice Privacy 2024 Challenge
- arxiv url: http://arxiv.org/abs/2410.02371v1
- Date: Thu, 3 Oct 2024 10:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:40:32.202720
- Title: NTU-NPU System for Voice Privacy 2024 Challenge
- Title(参考訳): 音声プライバシ2024チャレンジのためのNTU-NPUシステム
- Authors: Nikita Kuzmin, Hieu-Thi Luong, Jixun Yao, Lei Xie, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: We implement emotion embeddeding and experiment with WavLM and ECAPA2 speaker embeddedders for the B3 baseline。
我々は,B5のMean Reversion F0を紹介した。
- 参考スコア(独自算出の注目度): 34.54429069649407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we describe our submissions for the Voice Privacy Challenge 2024. Rather than proposing a novel speech anonymization system, we enhance the provided baselines to meet all required conditions and improve evaluated metrics. Specifically, we implement emotion embedding and experiment with WavLM and ECAPA2 speaker embedders for the B3 baseline. Additionally, we compare different speaker and prosody anonymization techniques. Furthermore, we introduce Mean Reversion F0 for B5, which helps to enhance privacy without a loss in utility. Finally, we explore disentanglement models, namely $\beta$-VAE and NaturalSpeech3 FACodec.
- Abstract(参考訳): 本稿では,Voice Privacy Challenge 2024への応募について述べる。
音声の匿名化システムを提案するのではなく、必要な条件をすべて満たし、評価基準を改善するために提供されたベースラインを強化する。
具体的には、B3ベースライン用の感情埋め込みとWavLMおよびECAPA2話者埋め込みの実験を行う。
さらに,異なる話者と韻律の匿名化手法を比較した。
さらに,B5 の Mean Reversion F0 も導入した。
最後に、逆絡モデル、すなわち$\beta$-VAEとNaturalSpeech3 FACodecについて検討する。
関連論文リスト
- HLTCOE JHU Submission to the Voice Privacy Challenge 2024 [31.94758615908198]
音声プライバシチャレンジのためのシステムをいくつか紹介する。
音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者の身元を隠すのに苦労している。
本稿では,2種類のシステムの強みと弱みのバランスをとるために,ランダムな混合システムを提案する。
論文 参考訳(メタデータ) (2024-09-13T15:29:37Z) - InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。
RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文 参考訳(メタデータ) (2023-10-18T18:00:11Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - The VoicePrivacy 2022 Challenge Evaluation Plan [46.807999940446294]
トレーニング、開発、評価のデータセットが提供される。
参加者は開発した匿名化システムを適用する。
結果はInterSPEECH 2022と共同で開催されるワークショップで発表される。
論文 参考訳(メタデータ) (2022-03-23T15:05:18Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Configurable Privacy-Preserving Automatic Speech Recognition [5.730142956540673]
音声支援システムにおけるモジュラ自動音声認識がプライバシーを向上するかどうかを検討する。
プライバシの懸念と,システムの各ステージに様々な最先端技術を適用する効果を示す。
これはASRを組み込んだプライバシー保護アプリケーションに新たな機会をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2021-04-01T21:03:49Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。