論文の概要: Identify Speakers in Cocktail Parties with End-to-End Attention
- arxiv url: http://arxiv.org/abs/2005.11408v2
- Date: Sun, 9 Aug 2020 09:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:50:47.964115
- Title: Identify Speakers in Cocktail Parties with End-to-End Attention
- Title(参考訳): エンド・ツー・エンド注意によるカクテルの話者識別
- Authors: Junzhe Zhu, Mark Hasegawa-Johnson, Leda Sari
- Abstract要約: 本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
- 参考スコア(独自算出の注目度): 48.96655134462949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In scenarios where multiple speakers talk at the same time, it is important
to be able to identify the talkers accurately. This paper presents an
end-to-end system that integrates speech source extraction and speaker
identification, and proposes a new way to jointly optimize these two parts by
max-pooling the speaker predictions along the channel dimension. Residual
attention permits us to learn spectrogram masks that are optimized for the
purpose of speaker identification, while residual forward connections permit
dilated convolution with a sufficiently large context window to guarantee
correct streaming across syllable boundaries. End-to-end training results in a
system that recognizes one speaker in a two-speaker broadcast speech mixture
with 99.9% accuracy and both speakers with 93.9% accuracy, and that recognizes
all speakers in three-speaker scenarios with 81.2% accuracy.
- Abstract(参考訳): 複数の話者が同時に話すシナリオでは、話者を正確に識別できることが重要である。
本稿では、音源抽出と話者識別を統合したエンドツーエンドシステムを提案し、チャネル次元に沿って話者予測を最大にすることで、これら2つの部分を協調的に最適化する方法を提案する。
残差注意により、話者識別のために最適化されたスペクトログラムマスクを学習でき、残差フォワード接続は、十分に大きなコンテキストウインドウによる拡張畳み込みを許容し、音節境界を越えた正しいストリーミングを保証する。
エンドツーエンドトレーニングの結果、99.9%の精度と93.9%の精度で2つの話者を混合して認識し、81.2%の精度で3話者シナリオで全ての話者を認識するシステムが得られる。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文 参考訳(メタデータ) (2021-07-20T08:25:23Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Supervised Speaker Embedding De-Mixing in Two-Speaker Environment [37.27421131374047]
音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。
提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
論文 参考訳(メタデータ) (2020-01-14T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。