論文の概要: Triplet loss based embeddings for forensic speaker identification in
Spanish
- arxiv url: http://arxiv.org/abs/2102.12564v1
- Date: Wed, 24 Feb 2021 21:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 01:47:09.865116
- Title: Triplet loss based embeddings for forensic speaker identification in
Spanish
- Title(参考訳): スペイン語の法医学的話者識別のためのトリプルト損失に基づく埋め込み
- Authors: Emmanuel Maqueda, Javier Alvarez-Jimenez, Carlos Mena, Ivan Meza
- Abstract要約: 三重項損失を用いたCNNの訓練により得られた音声埋め込みの利用を検討する。
主に男性話者によって構成されるデータ設定のいくつかの制限を示す。
三重項損失は、フォレンジックスピーカー識別のための音声埋め込みを作成するための良い選択肢であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of digital technology, it is more common that committed
crimes or legal disputes involve some form of speech recording where the
identity of a speaker is questioned [1]. In face of this situation, the field
of forensic speaker identification has been looking to shed light on the
problem by quantifying how much a speech recording belongs to a particular
person in relation to a population. In this work, we explore the use of speech
embeddings obtained by training a CNN using the triplet loss. In particular, we
focus on the Spanish language which has not been extensively studies. We
propose extracting the embeddings from speech spectrograms samples, then
explore several configurations of such spectrograms, and finally, quantify the
embeddings quality. We also show some limitations of our data setting which is
predominantly composed by male speakers. At the end, we propose two approaches
to calculate the Likelihood Radio given out speech embeddings and we show that
triplet loss is a good alternative to create speech embeddings for forensic
speaker identification.
- Abstract(参考訳): デジタル技術の出現により、犯罪や法的紛争には、話者の身元が疑われる何らかの形の音声記録が含まれることがより一般的です[1]。
このような状況に直面して、音声記録が特定の人物に属する程度を定量化することで、法医学的話者識別の分野が問題に光を当てることを模索している。
本研究では,3重項損失を用いてCNNを訓練した音声埋め込み手法について検討する。
特に、我々は広く研究されていないスペイン語に焦点を当てています。
音声スペクトログラムのサンプルから埋め込みを抽出し、それらのスペクトルのいくつかの構成を探索し、最後に埋め込み品質を定量化する。
また、主に男性スピーカーで構成されているデータ設定の制限も示しています。
最後に,3重項損失が,法医学的話者識別のための音声埋め込みの優れた代替手段であることを示す。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Towards cross-language prosody transfer for dialog [3.3758186776249928]
音声音声翻訳システムは、対話目的の使用を適切にサポートしていない。
特に、不適切な韻律移動により話者意図や姿勢のニュアンスを失うことがある。
本研究では,バイリンガル話者が他の言語での会話から発する発話を再現するデータ収集プロトコルを開発する。
論文 参考訳(メタデータ) (2023-07-09T08:32:14Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Unsupervised Speech Decomposition via Triple Information Bottleneck [63.55007056410914]
音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。
本稿では,3つの慎重に設計された情報ボトルネックを導入することで,音声をその4つの構成要素に盲目的に分解できるSpeechSplitを提案する。
論文 参考訳(メタデータ) (2020-04-23T16:12:42Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。