論文の概要: DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding
- arxiv url: http://arxiv.org/abs/2105.13802v1
- Date: Fri, 28 May 2021 13:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:22:44.110527
- Title: DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding
- Title(参考訳): DIVE:反復話者埋め込みによるエンドツーエンド音声ダイアリゼーション
- Authors: Neil Zeghidour, Olivier Teboul and David Grangier
- Abstract要約: エンドツーエンドの話者ダイアリゼーションアルゴリズムであるDIVEを紹介する。
抽出された表現に基づいて、各話者の音声活動を予測する前に、各話者に対する表現を繰り返し構築する。
この戦略は、古典的な置換不変の訓練損失を必要とせずに、話者のあいまいさを本質的に解決する。
- 参考スコア(独自算出の注目度): 29.05893644064964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DIVE, an end-to-end speaker diarization algorithm. Our neural
algorithm presents the diarization task as an iterative process: it repeatedly
builds a representation for each speaker before predicting the voice activity
of each speaker conditioned on the extracted representations. This strategy
intrinsically resolves the speaker ordering ambiguity without requiring the
classical permutation invariant training loss. In contrast with prior work, our
model does not rely on pretrained speaker representations and optimizes all
parameters of the system with a multi-speaker voice activity loss. Importantly,
our loss explicitly excludes unreliable speaker turn boundaries from training,
which is adapted to the standard collar-based Diarization Error Rate (DER)
evaluation. Overall, these contributions yield a system redefining the
state-of-the-art on the standard CALLHOME benchmark, with 6.7% DER compared to
7.8% for the best alternative.
- Abstract(参考訳): エンドツーエンドの話者ダイアリゼーションアルゴリズムであるDIVEを紹介する。
我々のニューラルアルゴリズムは、ダイアリゼーションタスクを反復プロセスとして提示する: 抽出された表現に基づいて条件づけされた各話者の音声アクティビティを予測する前に、各話者の表現を反復的に構築する。
この戦略は本質的に話者順序の曖昧さを、古典的置換不変なトレーニング損失を必要とせずに解決する。
先行研究とは対照的に、我々のモデルは事前訓練された話者表現に頼らず、マルチスピーカ音声活動損失を伴うシステムの全てのパラメータを最適化する。
重要な点は,der(standard collar-based diarization error rate)評価に適応した,信頼できない話者転向境界をトレーニングから明示的に排除することである。
全体として、これらのコントリビューションは標準的なCALLHOMEベンチマークで最先端のシステムを再定義する。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。