論文の概要: DNN Speaker Tracking with Embeddings
- arxiv url: http://arxiv.org/abs/2007.10248v1
- Date: Mon, 13 Jul 2020 18:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:50:43.597895
- Title: DNN Speaker Tracking with Embeddings
- Title(参考訳): 埋め込みによるDNN話者追跡
- Authors: Carlos Rodrigo Castillo-Sanchez, Leibny Paola Garcia-Perera, Anabel
Martin-Gonzalez
- Abstract要約: 埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-speaker applications is common to have pre-computed models from
enrolled speakers. Using these models to identify the instances in which these
speakers intervene in a recording is the task of speaker tracking. In this
paper, we propose a novel embedding-based speaker tracking method.
Specifically, our design is based on a convolutional neural network that mimics
a typical speaker verification PLDA (probabilistic linear discriminant
analysis) classifier and finds the regions uttered by the target speakers in an
online fashion. The system was studied from two different perspectives:
diarization and tracking; results on both show a significant improvement over
the PLDA baseline under the same experimental conditions. Two standard public
datasets, CALLHOME and DIHARD II single channel, were modified to create
two-speaker subsets with overlapping and non-overlapping regions. We evaluate
the robustness of our supervised approach with models generated from different
segment lengths. A relative improvement of 17% in DER for DIHARD II single
channel shows promising performance. Furthermore, to make the baseline system
similar to speaker tracking, non-target speakers were added to the recordings.
Even in these adverse conditions, our approach is robust enough to outperform
the PLDA baseline.
- Abstract(参考訳): マルチスピーカーアプリケーションは、登録された話者から事前計算されたモデルを持つのが一般的である。
これらのモデルを使用して、これらの話者が録音に介入するインスタンスを特定することは、話者追跡のタスクである。
本稿では,新しい埋め込み型話者追跡手法を提案する。
具体的には,典型的な話者照合plda(probabilistic linear discriminant analysis)分類器を模倣した畳み込みニューラルネットワークに基づいて,対象話者が発する領域をオンライン形式で探索する。
このシステムはダイアリゼーションとトラッキングという2つの異なる視点から研究され、同じ実験条件下ではPLDAベースラインよりも大きな改善が見られた。
CALLHOMEとDIHARD IIという2つの標準パブリックデータセットは、重複する領域と重複しない領域を持つ2つのスピーカーサブセットを作成するように修正された。
我々は,セグメント長の異なるモデルを用いて,教師付きアプローチのロバスト性を評価する。
DIHARD IIシングルチャネルにおけるDERの17%の相対的な改善は、有望なパフォーマンスを示している。
さらに, 話者追跡と同様のベースラインシステムを構築するために, 非ターゲット話者を録音に加えた。
このような悪条件下であっても,PLDAベースラインを上回り得るほど,我々のアプローチは堅牢である。
関連論文リスト
- Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes [36.63589873242547]
マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープガウス過程(DGP)と潜在変数モデル(DGPLVM)を用いた多話者音声合成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T02:03:27Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。