論文の概要: Analysis of Speech Temporal Dynamics in the Context of Speaker Verification and Voice Anonymization
- arxiv url: http://arxiv.org/abs/2412.17164v1
- Date: Sun, 22 Dec 2024 21:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:43.051196
- Title: Analysis of Speech Temporal Dynamics in the Context of Speaker Verification and Voice Anonymization
- Title(参考訳): 話者検証と音声匿名化の文脈における音声時間ダイナミクスの解析
- Authors: Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi,
- Abstract要約: 自動話者検証および話者音声匿名化タスクへの適用における音声時間ダイナミクスの影響について検討する。
音素持続時間のみに基づいて自動話者検証を行うための指標をいくつか提案する。
- 参考スコア(独自算出の注目度): 17.048523623756623
- License:
- Abstract: In this paper, we investigate the impact of speech temporal dynamics in application to automatic speaker verification and speaker voice anonymization tasks. We propose several metrics to perform automatic speaker verification based only on phoneme durations. Experimental results demonstrate that phoneme durations leak some speaker information and can reveal speaker identity from both original and anonymized speech. Thus, this work emphasizes the importance of taking into account the speaker's speech rate and, more importantly, the speaker's phonetic duration characteristics, as well as the need to modify them in order to develop anonymization systems with strong privacy protection capacity.
- Abstract(参考訳): 本稿では,話者自動検証と話者音声匿名化タスクへの音声時間ダイナミクスの適用について検討する。
音素持続時間のみに基づいて自動話者検証を行うための指標をいくつか提案する。
実験結果から,音素長が話者情報を漏洩し,話者の同一性を明らかにすることができた。
したがって、この研究は、話者の発話速度と、さらに重要なのは、話者の音声的持続時間特性を考慮することの重要性を強調し、強力なプライバシー保護能力を持つ匿名システムを開発するために、話者の音声的持続時間特性を変更することの必要性を強調している。
関連論文リスト
- Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.25816642820348]
我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文 参考訳(メタデータ) (2024-06-12T13:33:24Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Speaker Anonymization with Phonetic Intermediate Representations [22.84840887071428]
本稿では,話者の匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
論文 参考訳(メタデータ) (2022-07-11T13:02:08Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。