論文の概要: On Bottleneck Features for Text-Dependent Speaker Verification Using
X-vectors
- arxiv url: http://arxiv.org/abs/2005.07383v2
- Date: Tue, 1 Sep 2020 14:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:46:07.073257
- Title: On Bottleneck Features for Text-Dependent Speaker Verification Using
X-vectors
- Title(参考訳): Xベクトルを用いたテキスト依存話者検証のためのボトルネック機能について
- Authors: Achintya Kumar Sarkar and Zheng-Hua Tan
- Abstract要約: テキスト依存型話者検証(TD-SV)のためのxベクトルの検討
異なるボトルネック(BN)特徴がxベクトルの性能に与える影響について検討する。
実験はRedDots 2016 Challengeデータベース上で実施されている。
- 参考スコア(独自算出の注目度): 20.829997825439886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying x-vectors for speaker verification has recently attracted great
interest, with the focus being on text-independent speaker verification. In
this paper, we study x-vectors for text-dependent speaker verification (TD-SV),
which remains unexplored. We further investigate the impact of the different
bottleneck (BN) features on the performance of x-vectors, including the
recently-introduced time-contrastive-learning (TCL) BN features and
phone-discriminant BN features. TCL is a weakly supervised learning approach
that constructs training data by uniformly partitioning each utterance into a
predefined number of segments and then assigning each segment a class label
depending on their position in the utterance. We also compare TD-SV performance
for different modeling techniques, including the Gaussian mixture
models-universal background model (GMM-UBM), i-vector, and x-vector.
Experiments are conducted on the RedDots 2016 challenge database. It is found
that the type of features has a marginal impact on the performance of x-vectors
with the TCL BN feature achieving the lowest equal error rate, while the impact
of features is significant for i-vector and GMM-UBM. The fusion of x-vector and
i-vector systems gives a large gain in performance. The GMM-UBM technique shows
its advantage for TD-SV using short utterances.
- Abstract(参考訳): 話者検証にx-vectorを適用することは、テキストに依存しない話者検証に焦点をあてて、最近大きな関心を集めている。
本稿ではテキスト依存型話者検証(TD-SV)のためのxベクトルについて検討する。
さらに、最近導入されたTCL(Time-Contrastive-learning)BN機能や電話識別BN機能など、異なるボトルネック(BN)機能がxベクトルの性能に与える影響について検討する。
TCLは弱い教師付き学習手法であり、各発話を予め定義されたセグメント数に均一に分割し、各セグメントにその発話の位置に応じてクラスラベルを割り当てることで訓練データを構築する。
また,gaussian mixed model-universal background model (gmm-ubm), i-vector, x-vectorなど,様々なモデリング手法でtd-svの性能を比較する。
実験はreddots 2016 challenge databaseで実施された。
このタイプの特徴は,i-vector と GMM-UBM にとって重要な特徴であるのに対し,TCL BN が最低等差の誤差率を達成した場合,x-vector の性能に限界があることがわかった。
x-ベクター系とi-ベクター系の融合は、大きな性能向上をもたらす。
GMM-UBM法は,短発声を用いたTD-SVの利点を示す。
関連論文リスト
- Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - New Equivalences Between Interpolation and SVMs: Kernels and Structured
Features [22.231455330003328]
本稿では、任意のカーネルを再生するヒルベルト空間において、ラベルに対するフレキシブルな生成モデルのクラスでSVPを証明するための新しいフレキシブルな分析フレームワークを提案する。
我々は、SVPが以前の作業でカバーされていない多くの興味深い設定で発生していることを示し、カーネルSVM分類のための新しい一般化結果を証明するためにこれらの結果を活用する。
論文 参考訳(メタデータ) (2023-05-03T17:52:40Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - On Training Targets and Activation Functions for Deep Representation
Learning in Text-Dependent Speaker Verification [18.19207291891767]
主な考慮事項は、トレーニングターゲット、アクティベーション関数、損失関数である。
本研究では,話者識別を訓練対象とする場合の損失関数の範囲について検討する。
GELUはSigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。
論文 参考訳(メタデータ) (2022-01-17T14:32:51Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Vocal Tract Length Perturbation for Text-Dependent Speaker Verification
with Autoregressive Prediction Coding [0.0]
テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。
各VTL因子に対して一連のTD-SVシステムを訓練し、最終的な決定のためにスコアレベル融合を適用する。
論文 参考訳(メタデータ) (2020-11-25T06:11:06Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z) - Probabilistic embeddings for speaker diarization [13.276960253126656]
非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
論文 参考訳(メタデータ) (2020-04-06T14:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。