論文の概要: Attention-based conditioning methods using variable frame rate for
style-robust speaker verification
- arxiv url: http://arxiv.org/abs/2206.13680v1
- Date: Tue, 28 Jun 2022 01:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 14:36:58.075430
- Title: Attention-based conditioning methods using variable frame rate for
style-robust speaker verification
- Title(参考訳): 可変フレームレートを用いた意図に基づく話者照合手法
- Authors: Amber Afshan, Abeer Alwan
- Abstract要約: そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
- 参考スコア(独自算出の注目度): 21.607777746331998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach to extract speaker embeddings that are robust to
speaking style variations in text-independent speaker verification. Typically,
speaker embedding extraction includes training a DNN for speaker classification
and using the bottleneck features as speaker representations. Such a network
has a pooling layer to transform frame-level to utterance-level features by
calculating statistics over all utterance frames, with equal weighting.
However, self-attentive embeddings perform weighted pooling such that the
weights correspond to the importance of the frames in a speaker classification
task. Entropy can capture acoustic variability due to speaking style
variations. Hence, an entropy-based variable frame rate vector is proposed as
an external conditioning vector for the self-attention layer to provide the
network with information that can address style effects. This work explores
five different approaches to conditioning. The best conditioning approach,
concatenation with gating, provided statistically significant improvements over
the x-vector baseline in 12/23 tasks and was the same as the baseline in 11/23
tasks when using the UCLA speaker variability database. It also significantly
outperformed self-attention without conditioning in 9/23 tasks and was worse in
1/23. The method also showed significant improvements in multi-speaker
scenarios of SITW.
- Abstract(参考訳): テキストに依存しない話者検証において,発話スタイルのバリエーションに頑健な話者埋め込みを抽出する手法を提案する。
話者埋め込み抽出は通常、話者分類のためのDNNの訓練と、ボトルネック特徴を話者表現として使用する。
このようなネットワークは、全ての発話フレームの統計を等しい重み付けで計算することにより、フレームレベルを発話レベルに変換するプーリング層を有する。
しかし、自己注意埋め込みは重み付きプーリングを行い、重み付けは話者分類タスクにおけるフレームの重要性に対応する。
エントロピーは話し方の変化による音響的変動を捉えることができる。
したがって、エントロピーベースの可変フレームレートベクトルは、自己接続層に対する外部条件ベクトルとして提案され、ネットワークがスタイル効果に対処できる情報を提供する。
この研究は条件付けに対する5つの異なるアプローチを探求する。
最良の条件付け手法であるゲーティングとの結合は、12/23タスクにおけるxベクトルベースラインに対する統計的に有意な改善を提供し、UCLA話者可変データベースを使用する場合の11/23タスクにおけるベースラインと同じであった。
また、9/23タスクでは条件付けなしで自己注意が著しく向上し、1/23では悪化した。
また,SITWのマルチ話者シナリオにも大きな改善が見られた。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Speech Separation based on Contrastive Learning and Deep Modularization [3.2634122554914002]
本稿では,コントラスト学習を用いてフレームの表現を確立し,下流の深いモジュール化タスクにおいて学習された表現を使用する。
そこで我々は,与えられた話者に属するフレーム間の距離を最小化するために,自己教師型学習を実装した。
学習した表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。
論文 参考訳(メタデータ) (2023-05-18T02:19:05Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech [0.0]
本稿では,話者変化検出モデルのための新しい学習手法を提案する。
提案手法では, 対象関数を用いて, モデルが特定のカラー内の1つの正のラベルを予測できるようにする。
論文 参考訳(メタデータ) (2022-05-14T15:35:43Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification [23.970866246001652]
UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T22:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。