論文の概要: Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition
- arxiv url: http://arxiv.org/abs/2211.09913v1
- Date: Thu, 17 Nov 2022 22:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:35:05.702781
- Title: Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition
- Title(参考訳): テキスト非依存話者認識のためのマルチソースドメイン適応
- Authors: Zhenyu Wang, and John H. L. Hansen
- Abstract要約: 話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
- 参考スコア(独自算出の注目度): 36.83842373791537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting speaker recognition systems to new environments is a widely-used
technique to improve a well-performing model learned from large-scale data
towards a task-specific small-scale data scenarios. However, previous studies
focus on single domain adaptation, which neglects a more practical scenario
where training data are collected from multiple acoustic domains needed in
forensic scenarios. Audio analysis for forensic speaker recognition offers
unique challenges in model training with multi-domain training data due to
location/scenario uncertainty and diversity mismatch between reference and
naturalistic field recordings. It is also difficult to directly employ
small-scale domain-specific data to train complex neural network architectures
due to domain mismatch and performance loss. Fine-tuning is a commonly-used
method for adaptation in order to retrain the model with weights initialized
from a well-trained model. Alternatively, in this study, three novel adaptation
methods based on domain adversarial training, discrepancy minimization, and
moment-matching approaches are proposed to further promote adaptation
performance across multiple acoustic domains. A comprehensive set of
experiments are conducted to demonstrate that: 1) diverse acoustic environments
do impact speaker recognition performance, which could advance research in
audio forensics, 2) domain adversarial training learns the discriminative
features which are also invariant to shifts between domains, 3)
discrepancy-minimizing adaptation achieves effective performance simultaneously
across multiple acoustic domains, and 4) moment-matching adaptation along with
dynamic distribution alignment also significantly promotes speaker recognition
performance on each domain, especially for the LENA-field domain with noise
compared to all other systems.
- Abstract(参考訳): 話者認識システムを新しい環境に適応させる手法は、大規模データから学習した高性能なモデルをタスク固有の小規模データシナリオへと改善するための広く使われている手法である。
しかし、以前の研究では、法医学的なシナリオで必要とされる複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点を当てていた。
法医学的話者認識のための音声分析は、位置不確かさと参照と自然的フィールド記録の多様性ミスマッチによるマルチドメイン訓練データを用いたモデルトレーニングにおいて、ユニークな課題を提供する。
ドメインミスマッチとパフォーマンス損失のために、複雑なニューラルネットワークアーキテクチャをトレーニングするために、小規模のドメイン固有データを直接使用することも難しい。
微調整(英: fine-tuning)は、よく訓練されたモデルから初期化された重みでモデルを再訓練するためによく用いられる適応法である。
本研究は,複数の音響領域における適応性能をさらに高めるために,ドメイン逆訓練,不一致最小化,モーメントマッチングアプローチに基づく3つの新しい適応手法を提案する。
これを実証するために、総合的な実験セットが実施されている。
1) 多様な音響環境が話者認識性能に影響を及ぼすため, 音声鑑識研究の進展が期待できる。
2) ドメイン敵訓練は、ドメイン間のシフトにも不変な識別的特徴を学習する。
3)異性度最小化適応は複数の音響領域で同時に有効性能を達成する。
4) モーメントマッチング適応と動的分布アライメントは各領域、特に他の全てのシステムと比較してノイズのあるレナフィールド領域において話者認識性能を著しく向上させる。
関連論文リスト
- Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation [45.76004686788507]
本研究では,様々な環境やコンテンツから多様なトレーニングデータを生成する新しいデータシミュレーションパイプラインを提案する。
一般的な音声分離モデルの品質向上のための新しい訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-28T20:26:34Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Ensemble of Discriminators for Domain Adaptation in Multiple Sound
Source 2D Localization [7.564344795030588]
本稿では,複数音源の局所化のための領域適応手法の精度を向上させる識別器のアンサンブルを提案する。
このようなデータセットの記録とラベリングは、特にさまざまな音響条件をカバーするために十分な多様性を必要とするため、非常にコストがかかる。
論文 参考訳(メタデータ) (2020-12-10T09:17:29Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Adaptive Risk Minimization: Learning to Adapt to Domain Shift [109.87561509436016]
ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータは、同じ基礎となる分布から引き出されることである。
本研究では,学習データをドメインに構造化し,複数のテスト時間シフトが存在する場合の領域一般化の問題点について考察する。
本稿では、適応リスク最小化(ARM)の枠組みを紹介し、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。
論文 参考訳(メタデータ) (2020-07-06T17:59:30Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Toward Cross-Domain Speech Recognition with End-to-End Models [18.637636841477]
本稿では,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の差異を実験的に検討する。
ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。
シーケンスベースの基準に最適化されたエンドツーエンドモデルは、多様なドメインのハイブリッドモデルよりも一般化されている。
論文 参考訳(メタデータ) (2020-03-09T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。