論文の概要: Digital Speech Algorithms for Speaker De-Identification
- arxiv url: http://arxiv.org/abs/2203.03932v1
- Date: Tue, 8 Mar 2022 08:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 16:08:02.277710
- Title: Digital Speech Algorithms for Speaker De-Identification
- Title(参考訳): 話者識別のためのディジタル音声アルゴリズム
- Authors: Stefano Marinozzi, Marcos Faundez-Zanuy
- Abstract要約: 声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The present work is based on the COST Action IC1206 for De-identification in
multimedia content. It was performed to test four algorithms of voice
modifications on a speech gender recognizer to find the degree of modification
of pitch when the speech recognizer have the probability of success equal to
the probability of failure. The purpose of this analysis is to assess the
intensity of the speech tone modification, the quality, the reversibility and
not-reversibility of the changes made.
- Abstract(参考訳): 本研究は,マルチメディアコンテンツの識別のためのCOSTアクションIC1206に基づく。
音声認識器が失敗確率に等しい成功確率を持つ場合、ピッチの修正度を求めるために、音声性認識器における音声修正の4つのアルゴリズムをテストした。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
関連論文リスト
- Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Speaker Identification Experiments Under Gender De-Identification [0.0]
声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
論文 参考訳(メタデータ) (2022-03-09T10:47:23Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文 参考訳(メタデータ) (2021-08-04T06:22:12Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。