論文の概要: Segment Aggregation for short utterances speaker verification using raw
waveforms
- arxiv url: http://arxiv.org/abs/2005.03329v3
- Date: Tue, 4 Aug 2020 05:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 00:18:16.452790
- Title: Segment Aggregation for short utterances speaker verification using raw
waveforms
- Title(参考訳): raw波形を用いた短発話話者照合のためのセグメントアグリゲーション
- Authors: Seung-bin Kim, Jee-weon Jung, Hye-jin Shim, Ju-ho Kim and Ha-Jin Yu
- Abstract要約: 本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
- 参考スコア(独自算出の注目度): 47.41124427552161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most studies on speaker verification systems focus on long-duration
utterances, which are composed of sufficient phonetic information. However, the
performances of these systems are known to degrade when short-duration
utterances are inputted due to the lack of phonetic information as compared to
the long utterances. In this paper, we propose a method that compensates for
the performance degradation of speaker verification for short utterances,
referred to as "segment aggregation". The proposed method adopts an
ensemble-based design to improve the stability and accuracy of speaker
verification systems. The proposed method segments an input utterance into
several short utterances and then aggregates the segment embeddings extracted
from the segmented inputs to compose a speaker embedding. Then, this method
simultaneously trains the segment embeddings and the aggregated speaker
embedding. In addition, we also modified the teacher-student learning method
for the proposed method. Experimental results on different input duration using
the VoxCeleb1 test set demonstrate that the proposed technique improves speaker
verification performance by about 45.37% relatively compared to the baseline
system with 1-second test utterance condition.
- Abstract(参考訳): 話者照合システムに関するほとんどの研究は、十分な音声情報からなる長命発話に焦点を当てている。
しかし、これらのシステムの性能は、長い発話に比べて音声情報の欠如により、短い発話が入力されると劣化することが知られている。
本稿では,「セグメントアグリゲーション」と呼ばれる短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
提案手法は, 入力発話を複数の短い発話に分割し, セグメント化された入力から抽出したセグメント埋め込みを集約し, 話者埋め込みを構成する。
そして、この方法でセグメント埋め込みと集約話者埋め込みを同時に訓練する。
また,提案手法に対する教師・生徒の学習方法も修正した。
VoxCeleb1テストセットを用いた入力長の異なる実験結果から,提案手法は1秒の試験発話条件を持つベースラインシステムと比較して話者検証性能を約45.37%向上することが示された。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning [2.3076690318595676]
本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。
フェデレートラーニングモデルは、トレーニングのための大規模なオーディオデータベースを必要とせずに、会話に参加する参加者を特定することができる。
話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。
論文 参考訳(メタデータ) (2024-04-16T18:40:28Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。