論文の概要: Content-Aware Speaker Embeddings for Speaker Diarisation
- arxiv url: http://arxiv.org/abs/2102.06467v1
- Date: Fri, 12 Feb 2021 12:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 12:56:18.905103
- Title: Content-Aware Speaker Embeddings for Speaker Diarisation
- Title(参考訳): 話者ダイアリゼーションのためのコンテンツ対応話者埋め込み
- Authors: G. Sun, D. Liu, C. Zhang, P. C. Woodland
- Abstract要約: コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
- 参考スコア(独自算出の注目度): 3.6398652091809987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent speaker diarisation systems often convert variable length speech
segments into fixed-length vector representations for speaker clustering, which
are known as speaker embeddings. In this paper, the content-aware speaker
embeddings (CASE) approach is proposed, which extends the input of the speaker
classifier to include not only acoustic features but also their corresponding
speech content, via phone, character, and word embeddings. Compared to
alternative methods that leverage similar information, such as multitask or
adversarial training, CASE factorises automatic speech recognition (ASR) from
speaker recognition to focus on modelling speaker characteristics and
correlations with the corresponding content units to derive more expressive
representations. CASE is evaluated for speaker re-clustering with a realistic
speaker diarisation setup using the AMI meeting transcription dataset, where
the content information is obtained by performing ASR based on an automatic
segmentation. Experimental results showed that CASE achieved a 17.8% relative
speaker error rate reduction over conventional methods.
- Abstract(参考訳): 最近の話者ダイアリゼーションシステムは、可変長音声セグメントを話者クラスタリングのための固定長ベクトル表現に変換することが多い。
本稿では, 話者分類器の入力を音響的特徴だけでなく, 音声, 文字, 単語の埋め込みを通じて, 対応する音声内容を含むように拡張する, 内容認識型話者埋め込み (CASE) 手法を提案する。
マルチタスクや対人訓練のような類似した情報を活用する代替手法と比較して、CASEは話者認識から自動音声認識(ASR)を分解し、話者特性と対応するコンテンツユニットとの相関をモデル化し、より表現力のある表現を導出する。
AMIミーティング転写データセットを用いた現実的な話者ダイアリゼーション設定による話者再クラスタリングのケース評価を行い、自動セグメンテーションに基づいてASRを行うことで内容情報を得る。
実験の結果、従来の方法に比べて話者誤差率が17.8%減少した。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。