論文の概要: Automatic Evaluation of Speaker Similarity
- arxiv url: http://arxiv.org/abs/2207.00344v1
- Date: Fri, 1 Jul 2022 11:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:50:00.387490
- Title: Automatic Evaluation of Speaker Similarity
- Title(参考訳): 話者類似度の自動評価
- Authors: Deja Kamil, Sanchez Ariadna, Roth Julian, Cotescu Marius
- Abstract要約: 本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new automatic evaluation method for speaker similarity
assessment, that is consistent with human perceptual scores. Modern neural
text-to-speech models require a vast amount of clean training data, which is
why many solutions switch from single speaker models to solutions trained on
examples from many different speakers. Multi-speaker models bring new
possibilities, such as a faster creation of new voices, but also a new problem
- speaker leakage, where the speaker identity of a synthesized example might
not match those of the target speaker. Currently, the only way to discover this
issue is through costly perceptual evaluations. In this work, we propose an
automatic method for assessment of speaker similarity. For that purpose, we
extend the recent work on speaker verification systems and evaluate how
different metrics and speaker embeddings models reflect Multiple Stimuli with
Hidden Reference and Anchor (MUSHRA) scores. Our experiments show that we can
train a model to predict speaker similarity MUSHRA scores from speaker
embeddings with 0.96 accuracy and significant correlation up to 0.78 Pearson
score at the utterance level.
- Abstract(参考訳): 本稿では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
現代のニューラルテキスト音声モデルは、大量のクリーンなトレーニングデータを必要とするため、多くのソリューションが単一話者モデルから多数の異なる話者の例に基づいてトレーニングされたソリューションに切り替える理由となっている。
マルチスピーカーモデルは、新しい音声を高速に生成するなど、新しい可能性をもたらすが、新しい問題である、話者リーク — 合成されたサンプルの話者アイデンティティがターゲット話者のそれと一致しない、という問題もある。
現在、この問題を発見する唯一の方法は、コストのかかる知覚的評価である。
本研究では,話者の類似度を評価する自動手法を提案する。
その目的のために,最近の話者照合システムの研究を拡張し,異なるメトリクスと話者埋め込みモデルがどのように複数の刺激を隠れた参照とアンカー(mushra)スコアで反映しているかを評価する。
実験により,発話レベルでは0.78パーソンスコアまでの有意な相関と精度で話者埋め込みによる話者類似度を予測するモデルを訓練できることを示した。
関連論文リスト
- Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Generation [16.035697779803627]
本研究は,非存在感音声における音声合成の課題について考察する。
本稿では,この課題に対して競争力のあるシステムであるTacoSpawnを紹介する。
論文 参考訳(メタデータ) (2021-11-07T22:31:41Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Unified Autoregressive Modeling for Joint End-to-End Multi-Talker
Overlapped Speech Recognition and Speaker Attribute Estimation [26.911867847630187]
本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
ASRと話者属性推定を重畳した連立エンドツーエンドマルチストーカーに対する統合自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2021-07-04T05:47:18Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。