論文の概要: Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification
- arxiv url: http://arxiv.org/abs/2009.02444v2
- Date: Wed, 9 Sep 2020 16:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:09:08.411677
- Title: Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification
- Title(参考訳): テキスト非依存な話者照合のための不一致最小化によるクロスドメイン適応
- Authors: Zhenyu Wang, Wei Xia, John H.L. Hansen
- Abstract要約: 本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
- 参考スコア(独自算出の注目度): 61.54074498090374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forensic audio analysis for speaker verification offers unique challenges due
to location/scenario uncertainty and diversity mismatch between reference and
naturalistic field recordings. The lack of real naturalistic forensic audio
corpora with ground-truth speaker identity represents a major challenge in this
field. It is also difficult to directly employ small-scale domain-specific data
to train complex neural network architectures due to domain mismatch and loss
in performance. Alternatively, cross-domain speaker verification for multiple
acoustic environments is a challenging task which could advance research in
audio forensics. In this study, we introduce a CRSS-Forensics audio dataset
collected in multiple acoustic environments. We pre-train a CNN-based network
using the VoxCeleb data, followed by an approach which fine-tunes part of the
high-level network layers with clean speech from CRSS-Forensics. Based on this
fine-tuned model, we align domain-specific distributions in the embedding space
with the discrepancy loss and maximum mean discrepancy (MMD). This maintains
effective performance on the clean set, while simultaneously generalizes the
model to other acoustic domains. From the results, we demonstrate that diverse
acoustic environments affect the speaker verification performance, and that our
proposed approach of cross-domain adaptation can significantly improve the
results in this scenario.
- Abstract(参考訳): 話者検証のための法医学的音声分析は、位置/シナリオの不確かさと参照と自然主義的フィールド記録間の多様性のミスマッチにより、ユニークな課題をもたらす。
真に自然主義的な法医学的音声コーパスの欠如は、この分野における大きな課題である。
また、ドメインミスマッチやパフォーマンスの損失によって複雑なニューラルネットワークアーキテクチャをトレーニングするために、小規模のドメイン固有データを直接使用することも難しい。
あるいは、複数の音響環境に対するクロスドメイン話者検証は、オーディオ法医学の研究を進める上で難しい課題である。
本研究では,複数の音響環境において収集されたCRSS-Forensicsオーディオデータセットを提案する。
voxcelebデータを用いてcnnベースのネットワークを事前学習し,crss-forensicsによるクリーン音声によるハイレベルネットワーク層の一部を微調整するアプローチを行った。
この微調整モデルに基づいて、埋め込み空間におけるドメイン固有分布を、相違損失と最大平均相違(MMD)に整合させる。
これはクリーンセット上で効果的な性能を維持し、同時にモデルを他の音響領域に一般化する。
結果から,多様な音響環境が話者照合性能に影響を与え,提案するクロスドメイン適応手法が,このシナリオにおける結果を大幅に改善することを示す。
関連論文リスト
- Audio-based Kinship Verification Using Age Domain Conversion [39.4890403254022]
このタスクの主な課題は、異なる個人からのサンプル間の年齢差から生じる。
我々は、最適化されたCycleGAN-VC3ネットワークを利用して、年齢変換を行い、ドメイン内オーディオを生成する。
生成されたオーディオデータセットを使用して、さまざまな機能を抽出し、それをメトリック学習アーキテクチャに入力し、親族性を検証する。
論文 参考訳(メタデータ) (2024-10-14T22:08:57Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Toward Cross-Domain Speech Recognition with End-to-End Models [18.637636841477]
本稿では,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の差異を実験的に検討する。
ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。
シーケンスベースの基準に最適化されたエンドツーエンドモデルは、多様なドメインのハイブリッドモデルよりも一般化されている。
論文 参考訳(メタデータ) (2020-03-09T15:19:53Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。