論文の概要: Version Control of Speaker Recognition Systems
- arxiv url: http://arxiv.org/abs/2007.12069v6
- Date: Wed, 10 Apr 2024 23:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-14 16:55:44.868956
- Title: Version Control of Speaker Recognition Systems
- Title(参考訳): 話者認識システムのバージョン制御
- Authors: Quan Wang, Ignacio Lopez Moreno,
- Abstract要約: 本稿では,Googleが長年の工学的実践から学んだ話者認識システムのバージョン管理戦略について述べる。
SpeakerVerSimは、容易に拡張可能なPythonベースのシミュレーションフレームワークである。
- 参考スコア(独自算出の注目度): 10.759314780519368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
- Abstract(参考訳): 本稿では,話者認識システムにおける最も困難な実践的工学的問題の1つとして,モデルとユーザプロファイルのバージョン管理について論じる。
典型的な話者認識システムは、ユーザが提供する登録音声からプロファイルを生成する登録ステージと、格納されたプロファイルに対してランタイムオーディオの音声アイデンティティを比較するランタイムステージの2段階からなる。
技術が進歩するにつれて、より良い性能を得るために話者認識システムが更新される必要がある。
しかし、保存されたユーザープロファイルがそれに従って更新されない場合、バージョンミスマッチは意味のない認識結果をもたらす。
本稿では,Googleにおいて長年の工学的実践から慎重に研究されてきた話者認識システムのバージョン管理戦略について述べる。
これらの戦略は、デバイス側デプロイメント、サーバ側デプロイメント、ハイブリッドデプロイメントという3つのグループに分類される。
様々なネットワーク構成下で異なる戦略と定量的なメトリクスを比較するために,話者認識システムの異なるサーバ側展開戦略のための,容易に拡張可能なPythonベースのシミュレーションフレームワークであるSpeakerVerSimを提案する。
関連論文リスト
- Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - FastAudio: A Learnable Audio Front-End for Spoof Speech Detection [1.5984927623688914]
話者認証システムは、偽造攻撃から保護するために必要である。
本稿では,下流タスクとの共同学習による音声表現を学習可能なフロントエンドと比較する。
我々は,固定フィルタバンクを学習可能なレイヤに置き換えて,アンチスプーフィングタスクへの適応性を高めることを提案する。
論文 参考訳(メタデータ) (2021-09-06T23:32:10Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。