論文の概要: Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2111.04194v1
- Date: Sun, 7 Nov 2021 22:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 03:48:14.702256
- Title: Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition
- Title(参考訳): 音声認識のためのパーソナライズされた音響モデルからの話者情報検索
- Authors: Salima Mdhaffar, Jean-Fran\c{c}ois Bonastre, Marc Tommasi, Natalia
Tomashenko, Yannick Est\`eve
- Abstract要約: 本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
- 参考スコア(独自算出の注目度): 5.1229352884025845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread of powerful personal devices capable of collecting voice of
their users has opened the opportunity to build speaker adapted speech
recognition system (ASR) or to participate to collaborative learning of ASR. In
both cases, personalized acoustic models (AM), i.e. fine-tuned AM with specific
speaker data, can be built. A question that naturally arises is whether the
dissemination of personalized acoustic models can leak personal information. In
this paper, we show that it is possible to retrieve the gender of the speaker,
but also his identity, by just exploiting the weight matrix changes of a neural
acoustic model locally adapted to this speaker. Incidentally we observe
phenomena that may be useful towards explainability of deep neural networks in
the context of speech processing. Gender can be identified almost surely using
only the first layers and speaker verification performs well when using
middle-up layers. Our experimental study on the TED-LIUM 3 dataset with
HMM/TDNN models shows an accuracy of 95% for gender detection, and an Equal
Error Rate of 9.07% for a speaker verification task by only exploiting the
weights from personalized models that could be exchanged instead of user data.
- Abstract(参考訳): ユーザの声を収集できる強力なパーソナルデバイスの普及により、話者適応型音声認識システム(asr)を構築したり、asrの協調学習に参加する機会が開かれた。
いずれの場合も、特定の話者データを持つ微調整amであるパーソナライズされた音響モデル(am)を構築することができる。
自然に生じる問題は、パーソナライズされた音響モデルの普及によって個人情報が漏洩するかどうかである。
本稿では,この話者に局所的に適応した神経音響モデルの重み行列変化を活用すれば,話者の性別だけでなく,その同一性も検索できることを示す。
また,音声処理の文脈において,ディープニューラルネットワークの説明可能性に有用な現象を観察する。
ジェンダーは第1層のみを使用してほぼ確実に識別でき、中間層を使用する場合の話者検証は良好である。
HMM/TDNNモデルを用いたTED-Lium 3データセットの実験的研究は、ユーザのデータの代わりに交換可能なパーソナライズされたモデルからのみ重みを利用するだけで、ジェンダー検出の95%の精度と話者検証タスクの等誤差率9.07%を示す。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speaker Identification using Speech Recognition [0.0]
本研究は,音高,振幅,周波数などの人間の声質的特徴に基づいて,音声ファイル中の話者を識別するメカニズムを提供する。
限られたデータセットで音声表現を学習できる教師なし学習モデルを提案した。
論文 参考訳(メタデータ) (2022-05-29T13:03:42Z) - Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework [5.1229352884025845]
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
論文 参考訳(メタデータ) (2021-11-06T02:08:13Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - A Lightweight Speaker Recognition System Using Timbre Properties [0.5708902722746041]
ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
論文 参考訳(メタデータ) (2020-10-12T07:56:03Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。