論文の概要: U-vectors: Generating clusterable speaker embedding from unlabeled data
- arxiv url: http://arxiv.org/abs/2102.03868v1
- Date: Sun, 7 Feb 2021 18:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:55:33.466898
- Title: U-vectors: Generating clusterable speaker embedding from unlabeled data
- Title(参考訳): U-vectors: ラベルのないデータからクラスタ可能なスピーカーを埋め込む
- Authors: M. F. Mridha, Abu Quwsar Ohi, M. Ameer Ali, Muhammad Mostafa Monowar,
Md. Abdul Hamid
- Abstract要約: 本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker recognition deals with recognizing speakers by their speech.
Strategies related to speaker recognition may explore speech timbre properties,
accent, speech patterns and so on. Supervised speaker recognition has been
dramatically investigated. However, through rigorous excavation, we have found
that unsupervised speaker recognition systems mostly depend on domain
adaptation policy. This paper introduces a speaker recognition strategy dealing
with unlabeled data, which generates clusterable embedding vectors from small
fixed-size speech frames. The unsupervised training strategy involves an
assumption that a small speech segment should include a single speaker.
Depending on such a belief, we construct pairwise constraints to train twin
deep learning architectures with noise augmentation policies, that generate
speaker embeddings. Without relying on domain adaption policy, the process
unsupervisely produces clusterable speaker embeddings, and we name it
unsupervised vectors (u-vectors). The evaluation is concluded in two popular
speaker recognition datasets for English language, TIMIT, and LibriSpeech.
Also, we include a Bengali dataset, Bengali ASR, to illustrate the diversity of
the domain shifts for speaker recognition systems. Finally, we conclude that
the proposed approach achieves remarkable performance using pairwise
architectures.
- Abstract(参考訳): 発話者認識は、発話者を認識します。
話者認識に関する戦略は、音声の音色特性、アクセント、音声パターンなどを調べることができる。
教師付き話者認識は劇的に研究されている。
しかし,厳密な発掘調査により,教師なし話者認識システムは主にドメイン適応政策に依存していることが判明した。
本稿では,小さな固定サイズの音声フレームからクラスタ可能な埋め込みベクトルを生成する,ラベルなしデータを扱う話者認識戦略を提案する。
教師なしのトレーニング戦略は、小さなスピーチセグメントが単一のスピーカーを含むべきであるという仮定を含む。
このような信念に依拠して,2つのディープラーニングアーキテクチャを学習するために,話者埋め込みを生成するノイズ強化ポリシをペアワイズ制約として構築する。
ドメイン適応ポリシーを頼らずに、このプロセスはクラスター可能な話者埋め込みを生成し、それを教師なしベクトル (u-vectors) と呼ぶ。
評価は、TIMITとLibriSpeechの2つの人気のある英語話者認識データセットにまとめられる。
また、話者認識システムにおけるドメインシフトの多様性を説明するため、BengaliデータセットであるBengali ASRも含んでいる。
最後に,提案手法はペアワイズアーキテクチャによる優れた性能を実現する。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。