論文の概要: Effects of language mismatch in automatic forensic voice comparison
using deep learning embeddings
- arxiv url: http://arxiv.org/abs/2209.12602v1
- Date: Mon, 26 Sep 2022 11:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:16:09.154797
- Title: Effects of language mismatch in automatic forensic voice comparison
using deep learning embeddings
- Title(参考訳): 深層学習埋め込みを用いた音声自動分析における言語ミスマッチの効果
- Authors: D\'avid Sztah\'o and Attila Fejes
- Abstract要約: 本研究の目的は、英語コーパスで事前学習したモデルが、ターゲットとする低リソース言語で利用できるかどうかを検討することである。
その結果, モデルが異なる言語で事前学習されているが, 大量の話者を持つコーパスでは, 言語ミスマッチのあるサンプルに対して良好な性能が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In forensic voice comparison the speaker embedding has become widely popular
in the last 10 years. Most of the pretrained speaker embeddings are trained on
English corpora, because it is easily accessible. Thus, language dependency can
be an important factor in automatic forensic voice comparison, especially when
the target language is linguistically very different. There are numerous
commercial systems available, but their models are mainly trained on a
different language (mostly English) than the target language. In the case of a
low-resource language, developing a corpus for forensic purposes containing
enough speakers to train deep learning models is costly. This study aims to
investigate whether a model pre-trained on English corpus can be used on a
target low-resource language (here, Hungarian), different from the model is
trained on. Also, often multiple samples are not available from the offender
(unknown speaker). Therefore, samples are compared pairwise with and without
speaker enrollment for suspect (known) speakers. Two corpora are applied that
were developed especially for forensic purposes, and a third that is meant for
traditional speaker verification. Two deep learning based speaker embedding
vector extraction methods are used: the x-vector and ECAPA-TDNN. Speaker
verification was evaluated in the likelihood-ratio framework. A comparison is
made between the language combinations (modeling, LR calibration, evaluation).
The results were evaluated by minCllr and EER metrics. It was found that the
model pre-trained on a different language but on a corpus with a huge amount of
speakers performs well on samples with language mismatch. The effect of sample
durations and speaking styles were also examined. It was found that the longer
the duration of the sample in question the better the performance is. Also,
there is no real difference if various speaking styles are applied.
- Abstract(参考訳): 法医学的な音声比較では、過去10年間に話者埋め込みが広く普及している。
事前学習された話者の埋め込みのほとんどは英語のコーパスで訓練されている。
したがって、特に対象言語が言語的に非常に異なる場合、言語依存は自動法医学的音声比較において重要な要素となる。
多くの商用システムがあるが、モデルは主にターゲット言語とは別の言語(主に英語)で訓練されている。
低リソース言語の場合、ディープラーニングモデルを訓練するのに十分な話者を含む法医学的目的のためのコーパスを開発するのがコストがかかる。
本研究は,英語コーパスで事前学習したモデルが,学習されたモデルとは異なる低リソース言語(以下ハンガリー語)で使用できるかどうかを検討することを目的とする。
また、しばしば複数のサンプルが犯罪者(未知の話者)から入手できない。
したがって、サンプルは、疑似(既知の)話者に対する話者登録と非話者登録のペアワイズに比較される。
特に法医学的な目的で開発された2つのコーパスと、従来の話者認証を目的とした3番目のコーパスが適用される。
深層学習に基づく話者埋め込みベクトル抽出法として, x-vector と ECAPA-TDNN がある。
確率比フレームワークを用いて話者検証を行った。
言語の組み合わせ(モデリング、LR校正、評価)を比較する。
結果はminCllrとEERのメトリクスで評価された。
モデルが異なる言語で事前学習されているが、大量の話者を持つコーパスでは、言語ミスマッチのあるサンプルでうまく機能することが判明した。
サンプル継続時間と発話スタイルの影響についても検討した。
その結果, 試料の持続時間が長ければ長いほど, 性能が良くなることがわかった。
また、様々な話し方を適用しても本当の違いはない。
関連論文リスト
- Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。