論文の概要: Learning from human perception to improve automatic speaker verification
in style-mismatched conditions
- arxiv url: http://arxiv.org/abs/2206.13684v1
- Date: Tue, 28 Jun 2022 01:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 14:36:34.924382
- Title: Learning from human perception to improve automatic speaker verification
in style-mismatched conditions
- Title(参考訳): 人間の知覚から学び, スタイルミスマッチ条件下での自動話者検証を改善する
- Authors: Amber Afshan, Abeer Alwan
- Abstract要約: 我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
- 参考スコア(独自算出の注目度): 21.607777746331998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our prior experiments show that humans and machines seem to employ different
approaches to speaker discrimination, especially in the presence of speaking
style variability. The experiments examined read versus conversational speech.
Listeners focused on speaker-specific idiosyncrasies while "telling speakers
together", and on relative distances in a shared acoustic space when "telling
speakers apart". However, automatic speaker verification (ASV) systems use the
same loss function irrespective of target or non-target trials. To improve ASV
performance in the presence of style variability, insights learnt from human
perception are used to design a new training loss function that we refer to as
"CllrCE loss". CllrCE loss uses both speaker-specific idiosyncrasies and
relative acoustic distances between speakers to train the ASV system. When
using the UCLA speaker variability database, in the x-vector and conditioning
setups, CllrCE loss results in significant relative improvements in EER by
1-66%, and minDCF by 1-31% and 1-56%, respectively, when compared to the
x-vector baseline. Using the SITW evaluation tasks, which involve different
conversational speech tasks, the proposed loss combined with self-attention
conditioning results in significant relative improvements in EER by 2-5% and
minDCF by 6-12% over baseline. In the SITW case, performance improvements were
consistent only with conditioning.
- Abstract(参考訳): 我々の以前の実験では、人間と機械は、特に発話スタイルの多様性の存在下で、話者識別に異なるアプローチを採っているように思われる。
実験は読み書きと会話音声を比較検討した。
聞き手は「一緒にスピーカーを鳴らす」一方で、話者を照らす」とき、共有音響空間内の相対距離に焦点を当てた。
しかし、自動話者検証(asv)システムは、ターゲットまたは非ターゲットの試行によらず、同じ損失関数を使用する。
ASVの性能を向上させるために、人間の知覚から学習した洞察を用いて、私たちが「CllrCE損失」と呼ぶ新しいトレーニング損失関数を設計する。
CllrCEの損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
UCLA話者変動データベースを使用する場合、Xベクトルと条件設定において、CllrCE損失は、Xベクトルベースラインと比較して、EERの1-66%、minDCFの1-31%、および1-56%の大幅な改善をもたらす。
会話音声タスクの異なるSITW評価タスクを用いて、提案した損失と自己注意条件付けを組み合わせることで、EERを2-5%、minDCFを6-12%改善する。
SITWの場合、性能改善は条件付けにのみ一致していた。
関連論文リスト
- SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。
実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2023-05-31T05:59:33Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification [23.970866246001652]
UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T22:47:12Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。