論文の概要: MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification
- arxiv url: http://arxiv.org/abs/2111.06458v1
- Date: Thu, 11 Nov 2021 20:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:55:32.382318
- Title: MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification
- Title(参考訳): MultiSV:遠距離マルチチャネル話者検証のためのデータセット
- Authors: Ladislav Mo\v{s}ner, Old\v{r}ich Plchot, Luk\'a\v{s} Burget, Jan
\v{C}ernock\'y
- Abstract要約: 本稿では,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by unconsolidated data situation and the lack of a standard
benchmark in the field, we complement our previous efforts and present a
comprehensive corpus designed for training and evaluating text-independent
multi-channel speaker verification systems. It can be readily used also for
experiments with dereverberation, denoising, and speech enhancement. We tackled
the ever-present problem of the lack of multi-channel training data by
utilizing data simulation on top of clean parts of the Voxceleb dataset. The
development and evaluation trials are based on a retransmitted Voices Obscured
in Complex Environmental Settings (VOiCES) corpus, which we modified to provide
multi-channel trials. We publish full recipes that create the dataset from
public sources as the MultiSV corpus, and we provide results with two of our
multi-channel speaker verification systems with neural network-based
beamforming based either on predicting ideal binary masks or the more recent
Conv-TasNet.
- Abstract(参考訳): 統合されていないデータ状況と標準ベンチマークの欠如に動機付けられ,本研究を補完し,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
voxcelebデータセットのクリーンな部分上にデータシミュレーションを活用し,マルチチャネルトレーニングデータの欠如という現在に至るまでの課題に取り組んだ。
開発・評価試験は,複合環境設定 (voices) コーパスに隠された再送信音声に基づいて行う。
我々は、公開ソースからデータセットを生成する完全なレシピをマルチsvコーパスとして公開し、理想のバイナリマスクやより最近のconv-tasnetの予測に基づいて、ニューラルネットワークベースのビームフォーミングを備えた2つのマルチチャネル話者検証システムで結果を提供する。
関連論文リスト
- LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization [31.01716151301142]
本稿では、音声分離、音声認識、話者ダイアリゼーションの研究を進めるために、大規模遠距離重畳音声データセットを提案する。
このデータセットは、マルチストーカー、リバーラント環境において、Who氏の“What and When’’”を復号するための重要なリソースである。
論文 参考訳(メタデータ) (2024-09-01T19:23:08Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation [10.456845656569444]
複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。
複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
論文 参考訳(メタデータ) (2022-11-14T12:27:35Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。