論文の概要: Disentangled dimensionality reduction for noise-robust speaker
diarisation
- arxiv url: http://arxiv.org/abs/2110.03380v1
- Date: Thu, 7 Oct 2021 12:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:37:56.887490
- Title: Disentangled dimensionality reduction for noise-robust speaker
diarisation
- Title(参考訳): ノイズロバストスピーカダイアリゼーションのためのディメンタリティ低減
- Authors: You Jin Kim, Hee-Soo Heo, Jee-weon Jung, Youngki Kwon, Bong-Jin Lee,
Joon Son Chung
- Abstract要約: 話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。
話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。
本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。
また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
- 参考スコア(独自算出の注目度): 30.383712356205084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to train noise-robust speaker embeddings for
speaker diarisation. Speaker embeddings play a crucial role in the performance
of diarisation systems, but they often capture spurious information such as
noise and reverberation, adversely affecting performance. Our previous work
have proposed an auto-encoder-based dimensionality reduction module to help
remove the spurious information. However, they do not explicitly separate such
information and have also been found to be sensitive to hyperparameter values.
To this end, we propose two contributions to overcome these issues: (i) a novel
dimensionality reduction framework that can disentangle spurious information
from the speaker embeddings; (ii) the use of a speech/non-speech indicator to
prevent the speaker code from learning from the background noise. Through a
range of experiments conducted on four different datasets, our approach
consistently demonstrates the state-of-the-art performance among models that do
not adopt ensembles.
- Abstract(参考訳): 本研究の目的は,話者ダイアリゼーションのためのノイズロバスト話者埋め込みの訓練である。
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たすが、しばしばノイズや残響などの突発的な情報を捉え、性能に悪影響を及ぼす。
これまでの研究では,スプリアス情報を除去するための自動エンコーダベースの次元低減モジュールを提案している。
しかし、これらの情報は明確に分離せず、ハイパーパラメータ値に敏感であることも判明している。
この目的のために、これらの問題を克服するための2つの貢献を提案する。
一 話者埋め込みから散発的な情報を外すことができる新規な次元縮小枠組み
(2)背景雑音から話者コードが学習されるのを防ぐための音声・非音声指標の使用。
4つの異なるデータセットで実施した実験を通じて,本手法はアンサンブルを採用しないモデル間の最先端性能を一貫して実証する。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces [13.046304017209872]
本稿では、話者および雑音不変音声表現のためのデータ効率の高いドメイン固有自己スーパービジョン法であるRobust Spin(R-Spin)を紹介する。
R-SpinはSpinの問題を解決し、音響部品の予測を学習することでコンテンツ表現を強化する。
論文 参考訳(メタデータ) (2023-11-15T17:07:44Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。