Fugu-MT 論文翻訳(概要): Version Control of Speaker Recognition Systems

論文の概要: Version Control of Speaker Recognition Systems

arxiv url: http://arxiv.org/abs/2007.12069v8
Date: Fri, 14 Jun 2024 14:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 13:36:52.720596
Title: Version Control of Speaker Recognition Systems
Title（参考訳）: 話者認識システムのバージョン制御
Authors: Quan Wang, Ignacio Lopez Moreno,
Abstract要約: 本稿では,Googleが長年の工学的実践から学んだ話者認識システムのバージョン管理戦略について述べる。 SpeakerVerSimは、容易に拡張可能なPythonベースのシミュレーションフレームワークである。
参考スコア（独自算出の注目度）: 10.759314780519368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
Abstract（参考訳）: 本稿では,話者認識システムにおける最も困難な実践的工学的問題の1つとして,モデルとユーザプロファイルのバージョン管理について論じる。典型的な話者認識システムは、ユーザが提供する登録音声からプロファイルを生成する登録ステージと、格納されたプロファイルに対してランタイムオーディオの音声アイデンティティを比較するランタイムステージの2段階からなる。技術が進歩するにつれて、より良い性能を得るために話者認識システムが更新される必要がある。しかし、保存されたユーザープロファイルがそれに従って更新されない場合、バージョンミスマッチは意味のない認識結果をもたらす。本稿では,Googleにおいて長年の工学的実践から慎重に研究されてきた話者認識システムのバージョン管理戦略について述べる。これらの戦略は、デバイス側デプロイメント、サーバ側デプロイメント、ハイブリッドデプロイメントという3つのグループに分類される。様々なネットワーク構成下で異なる戦略と定量的なメトリクスを比較するために,話者認識システムの異なるサーバ側展開戦略のための,容易に拡張可能なPythonベースのシミュレーションフレームワークであるSpeakerVerSimを提案する。

関連論文リスト

AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文参考訳（メタデータ） (2025-03-11T15:24:02Z)
Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文参考訳（メタデータ） (2025-01-28T18:18:04Z)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。 KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。 UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T00:47:29Z)
Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文参考訳（メタデータ） (2023-10-17T16:22:18Z)
Joint speech and overlap detection: a benchmark over multiple audio setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文参考訳（メタデータ） (2023-07-24T14:29:21Z)
Continual Learning for On-Device Speech Recognition using Disentangled Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2022-12-02T18:58:51Z)
L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。 wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文参考訳（メタデータ） (2022-11-16T11:47:20Z)
ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文参考訳（メタデータ） (2022-10-24T15:58:48Z)
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文参考訳（メタデータ） (2021-11-07T09:53:31Z)
FastAudio: A Learnable Audio Front-End for Spoof Speech Detection [1.5984927623688914]
話者認証システムは、偽造攻撃から保護するために必要である。本稿では,下流タスクとの共同学習による音声表現を学習可能なフロントエンドと比較する。我々は,固定フィルタバンクを学習可能なレイヤに置き換えて,アンチスプーフィングタスクへの適応性を高めることを提案する。
論文参考訳（メタデータ） (2021-09-06T23:32:10Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文参考訳（メタデータ） (2021-02-07T18:00:09Z)
A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-08-07T12:44:08Z)
Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文参考訳（メタデータ） (2020-05-18T04:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。