論文の概要: A Real-time Speaker Diarization System Based on Spatial Spectrum
- arxiv url: http://arxiv.org/abs/2107.09321v1
- Date: Tue, 20 Jul 2021 08:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 21:00:57.132655
- Title: A Real-time Speaker Diarization System Based on Spatial Spectrum
- Title(参考訳): 空間スペクトルに基づくリアルタイム話者ダイアリゼーションシステム
- Authors: Siqi Zheng, Weilong Huang, Xianliang Wang, Hongbin Suo, Jinwei Feng,
Zhijie Yan
- Abstract要約: 本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
- 参考スコア(独自算出の注目度): 14.189768987932364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we describe a speaker diarization system that enables
localization and identification of all speakers present in a conversation or
meeting. We propose a novel systematic approach to tackle several long-standing
challenges in speaker diarization tasks: (1) to segment and separate
overlapping speech from two speakers; (2) to estimate the number of speakers
when participants may enter or leave the conversation at any time; (3) to
provide accurate speaker identification on short text-independent utterances;
(4) to track down speakers movement during the conversation; (5) to detect
speaker change incidence real-time. First, a differential directional
microphone array-based approach is exploited to capture the target speakers'
voice in far-field adverse environment. Second, an online speaker-location
joint clustering approach is proposed to keep track of speaker location. Third,
an instant speaker number detector is developed to trigger the mechanism that
separates overlapped speech. The results suggest that our system effectively
incorporates spatial information and achieves significant gains.
- Abstract(参考訳): 本稿では,会話や会議におけるすべての話者の位置と識別を可能にする話者ダイアリゼーションシステムについて述べる。
話者ダイアリゼーション課題において,(1)話者から重複する発話を分割して分離する,(2)参加者が会話に参加したり離れたりする話者の数を推定する,(3)短いテキストに依存しない発話で正確な話者識別を行う,(4)会話中の話者の動きを追跡する,(5)話者変化をリアルタイムで検出する,という,長年にわたる課題に取り組むための新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者配置クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
その結果,本システムは空間情報を効果的に活用し,大きな利益をもたらすことが示唆された。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。
隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。
Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文 参考訳(メタデータ) (2021-09-23T04:43:58Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。