Fugu-MT 論文翻訳(概要): Learning from human perception to improve automatic speaker verification in style-mismatched conditions

論文の概要: Learning from human perception to improve automatic speaker verification in style-mismatched conditions

arxiv url: http://arxiv.org/abs/2206.13684v1
Date: Tue, 28 Jun 2022 01:24:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-29 14:36:34.924382
Title: Learning from human perception to improve automatic speaker verification in style-mismatched conditions
Title（参考訳）: 人間の知覚から学び, スタイルミスマッチ条件下での自動話者検証を改善する
Authors: Amber Afshan, Abeer Alwan
Abstract要約: 我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。 CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
参考スコア（独自算出の注目度）: 21.607777746331998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our prior experiments show that humans and machines seem to employ different approaches to speaker discrimination, especially in the presence of speaking style variability. The experiments examined read versus conversational speech. Listeners focused on speaker-specific idiosyncrasies while "telling speakers together", and on relative distances in a shared acoustic space when "telling speakers apart". However, automatic speaker verification (ASV) systems use the same loss function irrespective of target or non-target trials. To improve ASV performance in the presence of style variability, insights learnt from human perception are used to design a new training loss function that we refer to as "CllrCE loss". CllrCE loss uses both speaker-specific idiosyncrasies and relative acoustic distances between speakers to train the ASV system. When using the UCLA speaker variability database, in the x-vector and conditioning setups, CllrCE loss results in significant relative improvements in EER by 1-66%, and minDCF by 1-31% and 1-56%, respectively, when compared to the x-vector baseline. Using the SITW evaluation tasks, which involve different conversational speech tasks, the proposed loss combined with self-attention conditioning results in significant relative improvements in EER by 2-5% and minDCF by 6-12% over baseline. In the SITW case, performance improvements were consistent only with conditioning.
Abstract（参考訳）: 我々の以前の実験では、人間と機械は、特に発話スタイルの多様性の存在下で、話者識別に異なるアプローチを採っているように思われる。実験は読み書きと会話音声を比較検討した。聞き手は「一緒にスピーカーを鳴らす」一方で、話者を照らす」とき、共有音響空間内の相対距離に焦点を当てた。しかし、自動話者検証(asv)システムは、ターゲットまたは非ターゲットの試行によらず、同じ損失関数を使用する。 ASVの性能を向上させるために、人間の知覚から学習した洞察を用いて、私たちが「CllrCE損失」と呼ぶ新しいトレーニング損失関数を設計する。 CllrCEの損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。 UCLA話者変動データベースを使用する場合、Xベクトルと条件設定において、CllrCE損失は、Xベクトルベースラインと比較して、EERの1-66%、minDCFの1-31%、および1-56%の大幅な改善をもたらす。会話音声タスクの異なるSITW評価タスクを用いて、提案した損失と自己注意条件付けを組み合わせることで、EERを2-5%、minDCFを6-12%改善する。 SITWの場合、性能改善は条件付けにのみ一致していた。

関連論文リスト

SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。 K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文参考訳（メタデータ） (2024-11-25T07:14:26Z)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文参考訳（メタデータ） (2024-07-15T00:47:56Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文参考訳（メタデータ） (2023-05-31T05:59:33Z)
Acoustic-to-articulatory Inversion based on Speech Decomposition and Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文参考訳（メタデータ） (2022-04-02T14:47:19Z)
Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。 KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文参考訳（メタデータ） (2022-03-31T03:18:13Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-14T12:30:41Z)
Variable frame rate-based data augmentation to handle speaking-style variability for automatic speaker verification [23.970866246001652]
UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。 PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
論文参考訳（メタデータ） (2020-08-08T22:47:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。