論文の概要: Improving speaker de-identification with functional data analysis of f0
trajectories
- arxiv url: http://arxiv.org/abs/2203.16738v1
- Date: Thu, 31 Mar 2022 01:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:18:06.682146
- Title: Improving speaker de-identification with functional data analysis of f0
trajectories
- Title(参考訳): f0軌道の関数データ解析による話者識別の改善
- Authors: Lauri Tavi, Tomi Kinnunen, Rosa Gonz\'alez Hautam\"aki
- Abstract要約: フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
- 参考スコア(独自算出の注目度): 10.809893662563926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to a constantly increasing amount of speech data that is stored in
different types of databases, voice privacy has become a major concern. To
respond to such concern, speech researchers have developed various methods for
speaker de-identification. The state-of-the-art solutions utilize deep learning
solutions which can be effective but might be unavailable or impractical to
apply for, for example, under-resourced languages. Formant modification is a
simpler, yet effective method for speaker de-identification which requires no
training data. Still, remaining intonational patterns in formant-anonymized
speech may contain speaker-dependent cues. This study introduces a novel
speaker de-identification method, which, in addition to simple formant shifts,
manipulates f0 trajectories based on functional data analysis. The proposed
speaker de-identification method will conceal plausibly identifying pitch
characteristics in a phonetically controllable manner and improve formant-based
speaker de-identification up to 25%.
- Abstract(参考訳): 異なる種類のデータベースに格納される音声データが絶えず増加するため、音声のプライバシーが大きな関心事となっている。
このような懸念に応えるため、音声研究者は話者識別のための様々な方法を開発した。
最先端のソリューションは、ディープラーニングのソリューションを利用しており、効果的だが、例えばリソース不足の言語に適用できない、あるいは実用的ではないかもしれない。
フォーマント修正は、訓練データを必要としない話者識別のためのシンプルで効果的な方法である。
それでも、フォルマント匿名化音声における内国的パターンは話者依存の手がかりを含む可能性がある。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォーマントに基づく話者識別を最大25%改善する。
関連論文リスト
- Personalizing Keyword Spotting with Speaker Information [11.4457776449367]
キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。
特徴量線形変調(FiLM)を用いたキーワードスポッティングに話者情報を統合する新しい手法を提案する。
提案手法では,パラメータ数が1%増加し,レイテンシと計算コストが最小限に抑えられた。
論文 参考訳(メタデータ) (2023-11-06T12:16:06Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning [37.73490851004852]
テキスト音声合成(TTS)における音声クローンのための少数ショットスタイル転送の課題は、非常に限られた量の中立データを用いて、任意の音源話者の発話スタイルをターゲット話者の音声に転送することを目的としている。
学習アルゴリズムは、数発の音声クローンと話者/韻律のアンタングルを同時に扱う必要があるため、これは非常に難しい作業である。
本稿では,メタラーニングを用いた音声のクローン処理のための高速な数ショットスタイル転送手法を提案する。
論文 参考訳(メタデータ) (2021-11-14T01:30:37Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。