論文の概要: Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information
- arxiv url: http://arxiv.org/abs/2111.13694v1
- Date: Sun, 28 Nov 2021 12:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 19:06:11.494377
- Title: Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information
- Title(参考訳): テキスト情報を用いた柔軟な話者数のための話者埋め込み認識ニューラルダイアリゼーション
- Authors: Zhihao Du, Shiliang Zhang, Siqi Zheng, Weilong Huang, Ming Lei
- Abstract要約: 本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
- 参考スコア(独自算出の注目度): 55.75018546938499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overlapping speech diarization is always treated as a multi-label
classification problem. In this paper, we reformulate this task as a
single-label prediction problem by encoding the multi-speaker labels with power
set. Specifically, we propose the speaker embedding-aware neural diarization
(SEND) method, which predicts the power set encoded labels according to the
similarities between speech features and given speaker embeddings. Our method
is further extended and integrated with downstream tasks by utilizing the
textual information, which has not been well studied in previous literature.
The experimental results show that our method achieves lower diarization error
rate than the target-speaker voice activity detection. When textual information
is involved, the diarization errors can be further reduced. For the real
meeting scenario, our method can achieve 34.11% relative improvement compared
with the Bayesian hidden Markov model based clustering algorithm.
- Abstract(参考訳): 重なり合う音声ダイアリゼーションは、常にマルチラベル分類問題として扱われる。
本稿では,マルチスピーカラベルをパワーセットで符号化することにより,単一ラベル予測問題として再検討する。
具体的には,音声特徴量と与えられた話者埋め込みの類似性に応じて符号化されたラベルのパワーを予測する,話者埋め込み認識ニューラルダイアリゼーション(send)法を提案する。
本手法は,従来の文献ではよく研究されていないテキスト情報を利用して,下流タスクにさらに拡張・統合する。
実験の結果,本手法は目標話者音声活動検出よりも低いダイアリゼーション誤り率が得られることがわかった。
テキスト情報が関与する場合、ダイアリゼーションエラーをさらに低減することができる。
実際のミーティングシナリオでは,ベイジアン隠れマルコフモデルに基づくクラスタリングアルゴリズムと比較して34.11%の改善が可能である。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection [21.116123328330467]
本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。
まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
論文 参考訳(メタデータ) (2022-01-30T13:08:16Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。