論文の概要: An Empirical Study on Text-Independent Speaker Verification based on the
GE2E Method
- arxiv url: http://arxiv.org/abs/2011.04896v4
- Date: Sun, 27 Feb 2022 12:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:31:07.176252
- Title: An Empirical Study on Text-Independent Speaker Verification based on the
GE2E Method
- Title(参考訳): GE2E法によるテキスト非依存話者検証に関する実証的研究
- Authors: Soroosh Tayebi Arasteh
- Abstract要約: GoogleのGeneralized End-to-End Loss for Speaker Verification (GE2E)は、収束と一般化のスピードによって、最近多くの注目を集めている。
本稿では, ランダムサンプリングによる試験発話, 受験発話時間, 受験発話数など, 各種実験について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many researchers in the speaker recognition area have started to
replace the former classical state-of-the-art methods with deep learning
techniques, some of the traditional i-vector-based methods are still
state-of-the-art in the context of text-independent speaker verification.
Google's Generalized End-to-End Loss for Speaker Verification (GE2E), a deep
learning-based technique using long short-term memory units, has recently
gained a lot of attention due to its speed in convergence and generalization.
In this study, we aim at further studying the GE2E method and comparing
different scenarios in order to investigate all of its aspects. Various
experiments including the effects of a random sampling of test and enrollment
utterances, test utterance duration, and the number of enrollment utterances
are discussed in this article. Furthermore, we compare the GE2E method with the
baseline state-of-the-art i-vector-based methods for text-independent speaker
verification and show that it outperforms them by resulting in lower error
rates while being end-to-end and requiring less training time for convergence.
- Abstract(参考訳): 話者認識領域の多くの研究者は、従来の最先端の手法をディープラーニング技術に置き換え始めたが、従来のiベクターベースの手法のいくつかは、テキストに依存しない話者検証の文脈ではまだ最先端である。
googleのge2e(generally end-to-end loss for speaker verification)は、長期の短期記憶単位を使用するディープラーニングベースの技術だが、最近は収束と一般化のスピードが速いため、多くの注目を集めている。
本研究では,GE2E法をさらに研究し,様々なシナリオを比較し,そのすべての側面について検討することを目的とする。
本論文では,テスト発話と登録発話のランダムサンプリング,テスト発話継続時間,登録発話数などの様々な実験について述べる。
さらに,ge2e法とテキスト非依存話者照合のベースラインi-vector法を比較し,エンドツーエンドでありながらエラー率を低くし,コンバージェンスに訓練時間を短縮することで,それを上回ることを示す。
関連論文リスト
- Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。
提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文 参考訳(メタデータ) (2021-03-12T03:01:17Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - On Target Segmentation for Direct Speech Translation [20.456325305495966]
サブワードレベルのセグメンテーションは、ニューラルマシン翻訳の最先端となった。
8言語方向と多言語訓練を含む3つのベンチマークで2つの手法を比較した。
サブワードレベルのセグメンテーションは、すべての設定で好意的に比較され、1から3のBLEUポイントの範囲で文字レベルのセグメンテーションを上回っている。
論文 参考訳(メタデータ) (2020-09-10T07:47:01Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。