論文の概要: Dynamic Recognition of Speakers for Consent Management by Contrastive
Embedding Replay
- arxiv url: http://arxiv.org/abs/2205.08459v1
- Date: Tue, 17 May 2022 16:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 16:03:01.082471
- Title: Dynamic Recognition of Speakers for Consent Management by Contrastive
Embedding Replay
- Title(参考訳): コントラスト埋め込みリプレイによる同意管理のための話者の動的認識
- Authors: Arash Shahmansoori and Utz Roedig
- Abstract要約: 本稿では,話者認識に基づく同意管理システムについて述べる。
同意を与えない話者は、継続的に訓練されるバケツにグループ化される。
バケット内の話者の高速かつダイナミックな登録と除去のためのアルゴリズムについて述べる。
- 参考スコア(独自算出の注目度): 3.29205776306738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice assistants record sound and can overhear conversations. Thus, a consent
management mechanism is desirable such that users can express their wish to be
recorded or not. Consent management can be implemented using speaker
recognition; users that do not give consent enrol their voice and all further
recordings of these users is subsequently not processed. Building speaker
recognition based consent management is challenging due to the dynamic nature
of the problem, required scalability for large number of speakers, and need for
fast speaker recognition with high accuracy. This paper describes a speaker
recognition based consent management system addressing the aforementioned
challenges. A fully supervised batch contrastive learning is applied to learn
the underlying speaker equivariance inductive bias during the training on the
set of speakers noting recording dissent. Speakers that do not provide consent
are grouped in buckets which are trained continuously. The embeddings are
contrastively learned for speakers in their buckets during training and act
later as a replay buffer for classification. The buckets are progressively
registered during training and a novel multi-strided random sampling of the
contrastive embedding replay buffer is proposed. Buckets are contrastively
trained for a few steps only in each iteration and replayed for classification
progressively leading to fast convergence. An algorithm for fast and dynamic
registration and removal of speakers in buckets is described. The evaluation
results show that the proposed approach provides the desired fast and dynamic
solution for consent management and outperforms existing approaches in terms of
convergence speed and adaptive capabilities as well as verification performance
during inference.
- Abstract(参考訳): 音声アシスタントは音声を録音し、会話を耳にする。
したがって、ユーザが記録するか否かの希望を表現できるように、同意管理機構が望ましい。
同意管理は話者認識を用いて行うことができ、同意を得られない利用者は音声を入力し、さらにユーザーの録音は処理されない。
話者認識に基づく同意管理の構築は、問題の動的な性質、多数の話者に要求されるスケーラビリティ、高精度な高速話者認識の必要性などにより困難である。
本稿では,上記の課題に対応する話者認識に基づく同意管理システムについて述べる。
完全教師付きバッチコントラスト学習を用いて、録音不一致を通知する話者集合の学習中に基礎となる話者同分散帰納的バイアスを学ぶ。
同意を与えない話者は、継続的に訓練されるバケツにグループ化される。
埋め込みは、トレーニング中にバケツのスピーカーに対して対照的に学習され、後で分類のためのリプレイバッファとして機能する。
訓練中にバケットを段階的に登録し、コントラスト埋め込みリプレイバッファの新たなマルチストレートランダムサンプリングを提案する。
バケットは、各イテレーションでのみいくつかのステップで対照的に訓練され、段階的に分類のために再生され、急速に収束する。
バケット内の話者の高速かつダイナミックな登録と除去のためのアルゴリズムについて述べる。
評価結果から,提案手法は合意管理に望まれる高速でダイナミックな解を提供し,既存の手法よりも収束速度や適応能力,推論時の検証性能に優れることが示された。
関連論文リスト
- A Reinforcement Learning Framework for Online Speaker Diarization [18.181920080789475]
話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本稿では,事前登録や事前学習を必要とせず,リアルタイムなマルチ話者ダイアリゼーションと認識を実現する機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T15:42:25Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。