論文の概要: Anonymising Elderly and Pathological Speech: Voice Conversion Using DDSP and Query-by-Example
- arxiv url: http://arxiv.org/abs/2410.15500v1
- Date: Sun, 20 Oct 2024 20:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:28.364811
- Title: Anonymising Elderly and Pathological Speech: Voice Conversion Using DDSP and Query-by-Example
- Title(参考訳): 高齢者と病理音声の匿名化:DDSPとクエリ・バイ・サンプルを用いた音声変換
- Authors: Suhita Ghosh, Melanie Jouaiti, Arnab Das, Yamini Sinha, Tim Polzehl, Ingo Siegert, Sebastian Stober,
- Abstract要約: 音声の匿名化は、言語内容を保持しながら、音声中の個人識別子を変更することによって話者のアイデンティティを保護することを目的としている。
現在の方法では、高齢者や病的音声領域で見られる韻律や独特の音声パターンを維持できない。
可変ディジタル信号処理とクエリ・バイ・サンプルを用いた音声変換方式(DDSP-QbE)を提案する。
- 参考スコア(独自算出の注目度): 4.42160195007899
- License:
- Abstract: Speech anonymisation aims to protect speaker identity by changing personal identifiers in speech while retaining linguistic content. Current methods fail to retain prosody and unique speech patterns found in elderly and pathological speech domains, which is essential for remote health monitoring. To address this gap, we propose a voice conversion-based method (DDSP-QbE) using differentiable digital signal processing and query-by-example. The proposed method, trained with novel losses, aids in disentangling linguistic, prosodic, and domain representations, enabling the model to adapt to uncommon speech patterns. Objective and subjective evaluations show that DDSP-QbE significantly outperforms the voice conversion state-of-the-art concerning intelligibility, prosody, and domain preservation across diverse datasets, pathologies, and speakers while maintaining quality and speaker anonymity. Experts validate domain preservation by analysing twelve clinically pertinent domain attributes.
- Abstract(参考訳): 音声の匿名化は、言語内容を保持しながら、音声中の個人識別子を変更することによって話者のアイデンティティを保護することを目的としている。
現在の手法では、高齢者や病的音声領域で見られる韻律や独特の音声パターンを維持できず、遠隔健康モニタリングに欠かせない。
このギャップに対処するために,可変ディジタル信号処理とクエリ・バイ・サンプルを用いた音声変換方式(DDSP-QbE)を提案する。
提案手法は, 言語, 韻律, ドメイン表現の両立を助長し, モデルが一般的でない音声パターンに適応できるようにする。
主観的および主観的評価は、DDSP-QbEが、品質と話者匿名性を維持しつつ、多様なデータセット、病理、話者間でのインテリジェンス、韻律、ドメイン保存に関する技術変換状態を著しく上回っていることを示している。
専門家は、12の臨床的に関連するドメイン属性を分析して、ドメインの保存を検証する。
関連論文リスト
- Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。
本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。
提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文 参考訳(メタデータ) (2024-10-20T20:33:44Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - On the Impact of Voice Anonymization on Speech Diagnostic Applications: a Case Study on COVID-19 Detection [13.227360396362707]
話者のプライバシーとアイデンティティを維持するために、音声匿名化への関心が高まっている。
しかし、感情コンピューティングや疾患モニタリングのアプリケーションにとって、パラ言語的コンテンツはより重要かもしれない。
我々は3つの匿名化手法と、5つの異なる最先端の新型コロナウイルス診断システムへの影響を検証した。
論文 参考訳(メタデータ) (2023-04-05T01:09:58Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文 参考訳(メタデータ) (2021-08-04T06:22:12Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。