論文の概要: HLTCOE JHU Submission to the Voice Privacy Challenge 2024
- arxiv url: http://arxiv.org/abs/2409.08913v2
- Date: Tue, 17 Sep 2024 14:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 13:27:52.464118
- Title: HLTCOE JHU Submission to the Voice Privacy Challenge 2024
- Title(参考訳): HLTCOE JHUが2024年の音声プライバシー問題に出場
- Authors: Henry Li Xinyuan, Zexin Cai, Ashi Garg, Kevin Duh, Leibny Paola García-Perera, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner,
- Abstract要約: 音声プライバシチャレンジのためのシステムをいくつか紹介する。
音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者の身元を隠すのに苦労している。
本稿では,2種類のシステムの強みと弱みのバランスをとるために,ランダムな混合システムを提案する。
- 参考スコア(独自算出の注目度): 31.94758615908198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a number of systems for the Voice Privacy Challenge, including voice conversion based systems such as the kNN-VC method and the WavLM voice Conversion method, and text-to-speech (TTS) based systems including Whisper-VITS. We found that while voice conversion systems better preserve emotional content, they struggle to conceal speaker identity in semi-white-box attack scenarios; conversely, TTS methods perform better at anonymization and worse at emotion preservation. Finally, we propose a random admixture system which seeks to balance out the strengths and weaknesses of the two category of systems, achieving a strong EER of over 40% while maintaining UAR at a respectable 47%.
- Abstract(参考訳): 本稿では,kNN-VC法やWavLM音声変換法などの音声変換システム,Whisper-VITSなどのテキスト音声変換システムなど,音声プライバシチャレンジのためのシステムを提案する。
音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者のアイデンティティを隠蔽することが困難であることがわかった。
最後に、2つのカテゴリの長所と短所のバランスをとろうとするランダムな混合システムを提案し、UARを47%に保ちながら40%以上の強靭なEERを実現した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time
Voice Anonymization [0.0]
我々は,V-Cloakという音声匿名化システムを開発し,リアルタイム音声匿名化を実現する。
設計した匿名化器は、異なる周波数レベルでオリジナル音声の特徴を変調するワンショット生成モデルを備えている。
実験結果から,V-Cloakは匿名性能において5つのベースラインより優れていたことが確認された。
論文 参考訳(メタデータ) (2022-10-27T02:58:57Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System
for Both Human Beings and Machines [15.087294549955304]
本研究の目的は,音声の話者内容のアンタングル化のための中間表現を得ることである。
本システムでは,音声のクローン性能を維持するために,話者情報制御を付加する。
その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減することがわかった。
論文 参考訳(メタデータ) (2021-11-06T06:22:45Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Enhancing Speech Intelligibility in Text-To-Speech Synthesis using
Speaking Style Conversion [17.520533341887642]
本稿では,Tacotron と WaveRNN を用いた TTS 合成を用いた新しいトランスファー学習手法を提案する。
提案した音声システムは, (a)ロンバルド話し方データと (b)スペクトル整形とダイナミックレンジ圧縮 (SSDRC) の2つの修正手法を利用する。
Bits測定におけるIntelligibilityによる定量化による信頼性向上は,提案したLombard-SSDRC TTSシステムにおいて,音声形雑音(SSN)の110%から130%,競合話者雑音(CSN)の47%から140%に有意な改善が認められたことを示している。
論文 参考訳(メタデータ) (2020-08-13T10:51:56Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。