論文の概要: Disentangling Voice and Content with Self-Supervision for Speaker
Recognition
- arxiv url: http://arxiv.org/abs/2310.01128v3
- Date: Wed, 1 Nov 2023 16:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:49:51.161942
- Title: Disentangling Voice and Content with Self-Supervision for Speaker
Recognition
- Title(参考訳): 話者認識のための自己スーパービジョンによる音声とコンテンツの分離
- Authors: Tianchi Liu, Kong Aik Lee, Qiongqiong Wang, Haizhou Li
- Abstract要約: 本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
- 参考スコア(独自算出の注目度): 57.446013973449645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For speaker recognition, it is difficult to extract an accurate speaker
representation from speech because of its mixture of speaker traits and
content. This paper proposes a disentanglement framework that simultaneously
models speaker traits and content variability in speech. It is realized with
the use of three Gaussian inference layers, each consisting of a learnable
transition model that extracts distinct speech components. Notably, a
strengthened transition model is specifically designed to model complex speech
dynamics. We also propose a self-supervision method to dynamically disentangle
content without the use of labels other than speaker identities. The efficacy
of the proposed framework is validated via experiments conducted on the
VoxCeleb and SITW datasets with 9.56% and 8.24% average reductions in EER and
minDCF, respectively. Since neither additional model training nor data is
specifically needed, it is easily applicable in practical use.
- Abstract(参考訳): 話者認識では,話者特性と内容が混在しているため,音声から正確な話者表現を抽出することは困難である。
本稿では,話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
異なる音声成分を抽出する学習可能な遷移モデルからなる3つのガウス推論層を用いて実現した。
特に、強化された遷移モデルは、複雑な音声力学をモデル化するために特別に設計されている。
また,話者識別以外のラベルを使わずにコンテンツを動的に切り離すセルフスーパービジョン手法を提案する。
提案フレームワークの有効性は,VoxCelebデータセットとSITWデータセットを用いて,それぞれEERおよびminDCFの平均減少率を9.56%,8.24%で検証した。
追加のモデルトレーニングやデータは特に必要とされないため、実用上容易に適用できる。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T02:43:57Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation [12.065178204539693]
Emotion Recognition in Conversation(ERC)は、パーソナライズされたインタラクティブな感情認識タスクです。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
複雑なモデリングをバイナリバージョン – スピーカー内依存関係とスピーカー間依存関係 – に簡略化します。
論文 参考訳(メタデータ) (2020-12-29T14:47:35Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。