論文の概要: Estimation of speaker age and height from speech signal using bi-encoder
transformer mixture model
- arxiv url: http://arxiv.org/abs/2203.11774v1
- Date: Tue, 22 Mar 2022 14:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 17:52:56.054626
- Title: Estimation of speaker age and height from speech signal using bi-encoder
transformer mixture model
- Title(参考訳): バイエンコーダ変圧器混合モデルによる音声信号からの話者年齢と高さの推定
- Authors: Tarun Gupta, Duc-Tuan Truong, Tran The Anh, Chng Eng Siong
- Abstract要約: 話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。
男女の音声特性の広さを考慮し、2つの異なるトランスフォーマーエンコーダを提案する。
年齢推定における現在の最先端の成績を著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 3.1447111126464997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The estimation of speaker characteristics such as age and height is a
challenging task, having numerous applications in voice forensic analysis. In
this work, we propose a bi-encoder transformer mixture model for speaker age
and height estimation. Considering the wide differences in male and female
voice characteristics such as differences in formant and fundamental
frequencies, we propose the use of two separate transformer encoders for the
extraction of specific voice features in the male and female gender, using
wav2vec 2.0 as a common-level feature extractor. This architecture reduces the
interference effects during backpropagation and improves the generalizability
of the model. We perform our experiments on the TIMIT dataset and significantly
outperform the current state-of-the-art results on age estimation.
Specifically, we achieve root mean squared error (RMSE) of 5.54 years and 6.49
years for male and female age estimation, respectively. Further experiment to
evaluate the relative importance of different phonetic types for our task
demonstrate that vowel sounds are the most distinguishing for age estimation.
- Abstract(参考訳): 年齢や身長などの話者特性の推定は難しい課題であり、音声法医学的分析に多くの応用がある。
本研究では,話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。
フォルマントと基本周波数の違いなど,男女の音声特性の広さを考慮し,男性と女性における特定の音声特徴の抽出に2つのトランスフォーマーエンコーダを用い,wav2vec 2.0を共通レベルの特徴抽出器として用いた。
このアーキテクチャはバックプロパゲーション時の干渉効果を低減し、モデルの一般化性を向上させる。
我々はtimitデータセットで実験を行い、年齢推定の現在の結果を大きく上回る結果を得た。
具体的には, 根平均二乗誤差(RMSE)は5.54年と6.49年である。
課題として, 母音が年齢推定において最も顕著であることを示すために, 異なる音韻型の相対的重要性を評価する実験を行った。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - Evolution of Voices in French Audiovisual Media Across Genders and Age in a Diachronic Perspective [0.9449650062296824]
本稿では,フランスのメディアアーカイブから1023人の話者の声のダイアクロニック音響解析を行った。
話者は、4つの期間(1955/56年、1975/76年、1995/96年、2015/16年)、4つの年齢グループ(20-35年、36-50年、51-65年、65年)と2つの性別に基づいて32のカテゴリーに分散している。
論文 参考訳(メタデータ) (2024-04-24T18:00:06Z) - SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech [0.0]
この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
これらの予測のためのディープラーニングモデルを探索するには、本論文で強調された単一、複数出力、シーケンシャルモデルを比較する必要がある。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
論文 参考訳(メタデータ) (2024-03-01T11:28:37Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - VoxCeleb Enrichment for Age and Gender Recognition [12.520037579004883]
我々は、VoxCelebデータセットに話者年齢ラベルと(代替)話者性別アノテーションを提供する。
年齢と性別の認識モデルを構築することで,このメタデータの利用を実証する。
また、オリジナルVoxCelebの性別ラベルと当社のラベルを比較して、オリジナルVoxCelebのデータに誤ラベルされている可能性のあるレコードを特定します。
論文 参考訳(メタデータ) (2021-09-28T06:18:57Z) - End-to-End Speaker Height and age estimation using Attention Mechanism
with LSTM-RNN [24.46321998619126]
高さと年齢の推定のためのエンドツーエンドアーキテクチャを構築するための注意メカニズムを使用する新しいアプローチを提案します。
注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
論文 参考訳(メタデータ) (2021-01-13T13:41:18Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。