論文の概要: Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds
- arxiv url: http://arxiv.org/abs/2010.13366v2
- Date: Fri, 5 Feb 2021 02:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:59:07.917367
- Title: Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds
- Title(参考訳): エンドツーエンドのニューラルネットワークとクラスタリングベースのダイアリゼーションの統合: 両世界のベストを勝ち取る
- Authors: Keisuke Kinoshita, Marc Delcroix, Naohiro Tawara
- Abstract要約: クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 71.36164750147827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diarization technologies can be categorized into two approaches, i.e.,
clustering and end-to-end neural approaches, which have different pros and
cons. The clustering-based approaches assign speaker labels to speech regions
by clustering speaker embeddings such as x-vectors. While it can be seen as a
current state-of-the-art approach that works for various challenging data with
reasonable robustness and accuracy, it has a critical disadvantage that it
cannot handle overlapped speech that is inevitable in natural conversational
data. In contrast, the end-to-end neural diarization (EEND), which directly
predicts diarization labels using a neural network, was devised to handle the
overlapped speech. While the EEND, which can easily incorporate emerging
deep-learning technologies, has started outperforming the x-vector clustering
approach in some realistic database, it is difficult to make it work for `long'
recordings (e.g., recordings longer than 10 minutes) because of, e.g., its huge
memory consumption. Block-wise independent processing is also difficult because
it poses an inter-block label permutation problem, i.e., an ambiguity of the
speaker label assignments between blocks. In this paper, we propose a simple
but effective hybrid diarization framework that works with overlapped speech
and for long recordings containing an arbitrary number of speakers. It modifies
the conventional EEND framework to simultaneously output global speaker
embeddings so that speaker clustering can be performed across blocks to solve
the permutation problem. With experiments based on simulated noisy reverberant
2-speaker meeting-like data, we show that the proposed framework works
significantly better than the original EEND especially when the input data is
long.
- Abstract(参考訳): 最近のダイアリゼーション技術は、異なる長所と短所を持つクラスタリングとエンドツーエンドのニューラルアプローチの2つのアプローチに分類することができる。
クラスタリングに基づくアプローチでは、x-ベクトルなどの話者埋め込みをクラスタリングすることで話者ラベルを音声領域に割り当てる。
現在の最先端のアプローチは、合理的な堅牢性と正確性を持った様々な挑戦的なデータに対して有効であるが、自然な会話データでは避けられない重複した音声を処理できないという重大な欠点がある。
対照的に、ニューラルネットワークを用いてダイアリゼーションラベルを直接予測するエンドツーエンドニューラルダイアリゼーション(EEND)は、重なり合う音声を処理するために考案された。
eendは、新しいディープラーニング技術を取り入れることができ、いくつかの現実的なデータベースでx-vectorクラスタリングアプローチを上回り始めたが、その巨大なメモリ消費のために、"long"レコード(例えば10分以上)で動作させることは困難である。
ブロック単位の独立処理もまた、ブロック間ラベル置換の問題、すなわちブロック間の話者ラベル割り当てのあいまいさを引き起こすため、難しい。
本稿では,重なり合う音声と,任意の話者数を含む長時間の録音に有効な,単純かつ効果的なハイブリッドダイアリゼーションフレームワークを提案する。
従来のEENDフレームワークを変更してグローバルな話者埋め込みを同時に出力し、ブロック間で話者クラスタリングを行い、置換問題を解決する。
模擬雑音性残響2話者会議型データに基づく実験により, 提案手法は入力データが長い場合において, 元のEENDよりも優れていることを示す。
関連論文リスト
- From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。
本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。
本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-27T15:09:39Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。