論文の概要: Deep multi-metric learning for text-independent speaker verification
- arxiv url: http://arxiv.org/abs/2007.10479v1
- Date: Fri, 17 Jul 2020 13:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:01:37.423851
- Title: Deep multi-metric learning for text-independent speaker verification
- Title(参考訳): テキスト非依存話者検証のための深層マルチメトリック学習
- Authors: Jiwei Xu and Xinggang Wang and Bin Feng and Wenyu Liu
- Abstract要約: テキスト非依存話者検証の目的は、与えられた2つの制御されていない発話が同一話者に由来するか否かを判断することである。
深層多次元学習を用いてこの問題に対処し、三重項損失、n対損失、角損失という3つの異なる損失を導入する。
6,000ドル以上の話者からの100万以上の発話を含む大規模なtexttVoxCeleb2データセットで実験を行った。
- 参考スコア(独自算出の注目度): 31.941143467131734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-independent speaker verification is an important artificial intelligence
problem that has a wide spectrum of applications, such as criminal
investigation, payment certification, and interest-based customer services. The
purpose of text-independent speaker verification is to determine whether two
given uncontrolled utterances originate from the same speaker or not.
Extracting speech features for each speaker using deep neural networks is a
promising direction to explore and a straightforward solution is to train the
discriminative feature extraction network by using a metric learning loss
function. However, a single loss function often has certain limitations. Thus,
we use deep multi-metric learning to address the problem and introduce three
different losses for this problem, i.e., triplet loss, n-pair loss and angular
loss. The three loss functions work in a cooperative way to train a feature
extraction network equipped with Residual connections and
squeeze-and-excitation attention. We conduct experiments on the large-scale
\texttt{VoxCeleb2} dataset, which contains over a million utterances from over
$6,000$ speakers, and the proposed deep neural network obtains an equal error
rate of $3.48\%$, which is a very competitive result. Codes for both training
and testing and pretrained models are available at
\url{https://github.com/GreatJiweix/DmmlTiSV}, which is the first publicly
available code repository for large-scale text-independent speaker verification
with performance on par with the state-of-the-art systems.
- Abstract(参考訳): テキスト非依存話者検証は、刑事捜査、支払い認証、関心に基づく顧客サービスなど、幅広い応用分野を持つ重要な人工知能問題である。
テキスト非依存話者検証の目的は、与えられた2つの非制御発話が同一話者に由来するかどうかを判定することである。
ディープニューラルネットワークを用いた話者毎の音声特徴抽出は,探索に有望な方向であり,計量学習損失関数を用いて識別特徴抽出ネットワークを訓練する簡単な解法である。
しかし、単一損失関数はしばしば特定の制限を持つ。
そこで我々は,この問題に対する深いマルチメトリック学習を用い,三重項損失,n対損失,角損失という3つの異なる損失を導入した。
3つの損失関数は協調的に機能し、残差接続と押収注意を備えた特徴抽出ネットワークを訓練する。
我々は、6000ドルを超える話者からの100万以上の発話を含む大規模データセットである \texttt{voxceleb2} の実験を行い、提案するディープニューラルネットワークは3.48\%$の同等のエラー率を得る。これは非常に競争的な結果である。
トレーニングとテストの両方と事前トレーニングされたモデルのコードは、現在のシステムと同等のパフォーマンスを持つ大規模テキスト非依存の話者検証のための最初の公開コードリポジトリである \url{https://github.com/GreatJiweix/DmmlTiSV} で利用可能である。
関連論文リスト
- A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Reservoir Stack Machines [77.12475691708838]
メモリ拡張ニューラルネットワークは、情報ストレージを必要とするタスクをサポートするために、明示的なメモリを備えたリカレントニューラルネットワークを備える。
本研究では,全ての決定論的文脈自由言語を確実に認識できるモデルである貯水池スタックマシンを導入する。
以上の結果から, 貯水池スタックマシンは, 訓練データよりも長い試験シーケンスでもゼロ誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2021-05-04T16:50:40Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - On Improving Deep Learning Trace Analysis with System Call Arguments [1.3299507495084417]
カーネルトレースは名前と複数の引数からなる低レベルのイベントのシーケンスである。
埋め込みとエンコーディングの両方を用いて、イベント名の表現と引数を学習するための一般的なアプローチを導入する。
論文 参考訳(メタデータ) (2021-03-11T19:26:34Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - A Comparison of Metric Learning Loss Functions for End-To-End Speaker
Verification [4.617249742207066]
本稿では,VoxCelebデータセット上で,いくつかのメトリクス学習損失関数を体系的に比較する。
加法的な角縁損失関数は,他のすべての損失関数より優れていることを示す。
本稿では,SincNet のトレーニング可能な機能と x-vector アーキテクチャを組み合わせることで,エンドツーエンドの話者検証システムに一歩近づいた。
論文 参考訳(メタデータ) (2020-03-31T08:36:07Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。