論文の概要: Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer
Transducer Speaker Turn Detection
- arxiv url: http://arxiv.org/abs/2109.11641v1
- Date: Thu, 23 Sep 2021 20:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:01:09.464397
- Title: Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer
Transducer Speaker Turn Detection
- Title(参考訳): Turn-to-Diarize: Transformer Transducer Speaker Turn Detection によるオンライン話者ダイアリゼーション
- Authors: Wei Xia, Han Lu, Quan Wang, Anshuman Tripathi, Ignacio Lopez Moreno,
Hasim Sak
- Abstract要約: デバイス上のアプリケーションをストリーミングするための新しい話者ダイアリゼーションシステムを提案する。
タイムスタンプ付き話者ラベルのアノテーションを必要とする他の教師付き話者ダイアリゼーションシステムとは異なり、我々のシステムは翻訳過程中にのみ話者のターントークンを含める必要がある。
- 参考スコア(独自算出の注目度): 35.47709197937178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel speaker diarization system for streaming
on-device applications. In this system, we use a transformer transducer to
detect the speaker turns, represent each speaker turn by a speaker embedding,
then cluster these embeddings with constraints from the detected speaker turns.
Compared with conventional clustering-based diarization systems, our system
largely reduces the computational cost of clustering due to the sparsity of
speaker turns. Unlike other supervised speaker diarization systems which
require annotations of time-stamped speaker labels for training, our system
only requires including speaker turn tokens during the transcribing process,
which largely reduces the human efforts involved in data collection.
- Abstract(参考訳): 本稿では,デバイス上でストリーミングを行うための新しい話者ダイアリゼーションシステムを提案する。
本システムでは、トランスデューサを用いて話者回転を検出し、各話者回転を話者埋め込みにより表現し、検出された話者回転からの制約でこれらの埋め込みをクラスタ化する。
従来のクラスタリングに基づくダイアリゼーションシステムと比較して,本システムは話者交代のスパース性によりクラスタリングの計算コストを大幅に削減する。
学習にタイムスタンプ付き話者ラベルのアノテーションを必要とする他の教師付き話者ダイアリゼーションシステムとは異なり、我々のシステムは、データ収集に関わる人的労力を大幅に削減するために、翻訳プロセス中に話者のターントークンを含めることしか必要としない。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning [2.3076690318595676]
本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。
フェデレートラーニングモデルは、トレーニングのための大規模なオーディオデータベースを必要とせずに、会話に参加する参加者を特定することができる。
話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。
論文 参考訳(メタデータ) (2024-04-16T18:40:28Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System
for Both Human Beings and Machines [15.087294549955304]
本研究の目的は,音声の話者内容のアンタングル化のための中間表現を得ることである。
本システムでは,音声のクローン性能を維持するために,話者情報制御を付加する。
その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減することがわかった。
論文 参考訳(メタデータ) (2021-11-06T06:22:45Z) - A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文 参考訳(メタデータ) (2021-07-20T08:25:23Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。