論文の概要: Parameter-Free Attentive Scoring for Speaker Verification
- arxiv url: http://arxiv.org/abs/2203.05642v1
- Date: Thu, 10 Mar 2022 21:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:53:32.024019
- Title: Parameter-Free Attentive Scoring for Speaker Verification
- Title(参考訳): 話者検証のためのパラメータフリーアテンテーティブ・スコーリング
- Authors: Jason Pelecanos, Quan Wang, Yiling Huang, Ignacio Lopez Moreno
- Abstract要約: 本稿では,話者検証のためのパラメータフリー注意点定法について,新しい研究を行った。
トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。
4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 8.130940584901959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel study of parameter-free attentive scoring for
speaker verification. Parameter-free scoring provides the flexibility of
comparing speaker representations without the need of an accompanying
parametric scoring model. Inspired by the attention component in Transformer
neural networks, we propose a variant of the scaled dot product attention
mechanism to compare enrollment and test segment representations. In addition,
this work explores the effect on performance of (i) different types of
normalization, (ii) independent versus tied query/key estimation, (iii) varying
the number of key-value pairs and (iv) pooling multiple enrollment utterance
statistics. Experimental results for a 4 task average show that a simple
parameter-free attentive scoring mechanism can improve the average EER by 10%
over the best cosine similarity baseline.
- Abstract(参考訳): 本稿では,話者検証のためのパラメータフリー注意点定法を提案する。
パラメータフリースコアリングは、付随するパラメトリックスコアリングモデルを必要としない話者表現を比較する柔軟性を提供する。
トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。
さらに、この研究は、パフォーマンスへの影響を探求する。
(i)異なる種類の正規化。
(ii)独立対連結クエリ/キー推定
三 キー-値対の数及び数の変更
(iv)複数の登録発話統計をプールすること。
4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。
関連論文リスト
- Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Probabilistic Back-ends for Online Speaker Recognition and Clustering [31.493856217110356]
本稿では,オンライン話者クラスタリングの課題において自然に発生する多言語話者認識に焦点を当てた。
一般的なコサインスコアは, 校正度が低かったり, 受講者の発話が多様であったりする。
確率線形判別分析(PLDA)の極端に制約されたバージョンに基づくコサインスコアの簡易な置き換えを提案する。
論文 参考訳(メタデータ) (2023-02-19T09:48:26Z) - Automatic Data Augmentation Selection and Parametrization in Contrastive
Self-Supervised Speech Representation Learning [21.423349835589793]
本研究では, 事前定義された値集合から, 拡張選択とそのパラメトリゼーションに関する適切な分布を自動的に選択できる条件付き独立性に基づく手法を提案する。
2つの異なる下流タスクで実施された実験は、拡張やベースライン拡張を伴わない実験よりも優れた結果を示す提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-04-08T16:30:50Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Towards Better Object Detection in Scale Variation with Adaptive Feature
Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。
これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。
クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文 参考訳(メタデータ) (2020-12-06T13:41:20Z) - Do We Really Need That Many Parameters In Transformer For Extractive
Summarization? Discourse Can Help ! [7.421040034454999]
談話先行情報を用いた新しいパラメータリーン自己認識機構を提案する。
我々の新しい木自己注意は文書レベルの談話情報に基づいている。
本研究は,本手法が抽出的要約の課題において,競合的なROUGEスコアを達成できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-03T18:23:21Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。