論文の概要: Speaker Identification Experiments Under Gender De-Identification
- arxiv url: http://arxiv.org/abs/2203.04638v1
- Date: Wed, 9 Mar 2022 10:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:57:46.783089
- Title: Speaker Identification Experiments Under Gender De-Identification
- Title(参考訳): ジェンダー識別における話者識別実験
- Authors: Marcos Faundez-Zanuy, Enric Sesa-Nogueras, Stefano Marinozzi
- Abstract要約: 声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The present work is based on the COST Action IC1206 for De-identification in
multimedia content. It was performed to test four algorithms of voice
modifications on a speech gender recognizer to find the degree of modification
of pitch when the speech recognizer have the probability of success equal to
the probability of failure. The purpose of this analysis is to assess the
intensity of the speech tone modification, the quality, the reversibility and
not-reversibility of the changes made. Keywords DeIdentification; Speech
Algorithms
- Abstract(参考訳): 本研究は,マルチメディアコンテンツの識別のためのCOSTアクションIC1206に基づく。
音声認識器が失敗確率に等しい成功確率を持つ場合、ピッチの修正度を求めるために、音声性認識器における音声修正の4つのアルゴリズムをテストした。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
キーワード識別; 音声アルゴリズム
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Improved disentangled speech representations using contrastive learning
in factorized hierarchical variational autoencoder [16.043725024443596]
acrlongfhvae (acrshortfhvae) は、話者のアイデンティティと内容を象徴するために異なる潜伏変数を使用する。
我々は、同じ話者を表現する際に話者識別変数を集合させるために、対照的な学習をフレームワークに導入する。
提案手法は,acrshortfhvaeに比べて話者識別とコンテンツ特徴抽出の両面で改善し,変換のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-15T14:55:28Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Digital Speech Algorithms for Speaker De-Identification [0.0]
声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。
本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
論文 参考訳(メタデータ) (2022-03-08T08:57:11Z) - Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文 参考訳(メタデータ) (2021-08-04T06:22:12Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。