論文の概要: SVLDL: Improved Speaker Age Estimation Using Selective Variance Label
Distribution Learning
- arxiv url: http://arxiv.org/abs/2210.09524v1
- Date: Tue, 18 Oct 2022 01:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 16:18:14.844893
- Title: SVLDL: Improved Speaker Age Estimation Using Selective Variance Label
Distribution Learning
- Title(参考訳): SVLDL:選択変数ラベル分布学習による話者年齢推定の改善
- Authors: Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao
- Abstract要約: 本稿では,年齢分布の分散に適応するために,SVLDL法を提案する。
モデルは、WavLMを音声特徴抽出器として使用し、さらにパフォーマンスを向上させるために、性別認識の補助タスクを追加する。
実験の結果,NIST SRE08-10と実世界のデータセットのすべての面において,最先端のパフォーマンスが得られた。
- 参考スコア(独自算出の注目度): 24.57668015470307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating age from a single speech is a classic and challenging topic.
Although Label Distribution Learning (LDL) can represent adjacent
indistinguishable ages well, the uncertainty of the age estimate for each
utterance varies from person to person, i.e., the variance of the age
distribution is different. To address this issue, we propose selective variance
label distribution learning (SVLDL) method to adapt the variance of different
age distributions. Furthermore, the model uses WavLM as the speech feature
extractor and adds the auxiliary task of gender recognition to further improve
the performance. Two tricks are applied on the loss function to enhance the
robustness of the age estimation and improve the quality of the fitted age
distribution. Extensive experiments show that the model achieves
state-of-the-art performance on all aspects of the NIST SRE08-10 and a
real-world datasets.
- Abstract(参考訳): 一つのスピーチから年齢を推定することは、古典的な挑戦的なトピックである。
ラベル分布学習(ldl)は隣接する識別不能年齢を表すことができるが、各発話に対する年齢推定の不確かさは人によって異なり、年齢分布のばらつきが異なる。
そこで本研究では, 年齢分布のばらつきを適応させるために, 選択的分散ラベル分布学習(svldl)法を提案する。
さらに、wavlmを音声特徴抽出器として使用し、性認識の補助タスクを追加し、さらなる性能向上を図る。
損失関数に対して, 年齢推定のロバスト性を高め, 適合年齢分布の質を向上させるための2つの手法を適用した。
大規模な実験により、NIST SRE08-10と実世界のデータセットのあらゆる面において最先端のパフォーマンスが達成された。
関連論文リスト
- Generalizable Low-Resource Activity Recognition with Diverse and
Discriminative Representation Learning [24.36351102003414]
HAR(Human Activity Recognition)は、人間のセンサーの読み取りから動作パターンを特定することに焦点を当てた時系列分類タスクである。
一般化可能な低リソースHARのためのDDLearn(Diverse and Discriminative Expression Learning)という新しい手法を提案する。
平均精度は9.5%向上した。
論文 参考訳(メタデータ) (2023-05-25T08:24:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Fairness Improves Learning from Noisily Labeled Long-Tailed Data [119.0612617460727]
長い尾とノイズの多いラベル付きデータは、現実世界のアプリケーションに頻繁に現れ、学習に重大な課題を課す。
2つのサブポピュレーション間のパフォーマンスギャップを正規化することから着想を得たFairness Regularizer(FR)を導入する。
導入したフェアネス正則化器は,尾部のサブポピュレーションと全体的な学習性能を向上することを示す。
論文 参考訳(メタデータ) (2023-03-22T03:46:51Z) - Adaptive Mean-Residue Loss for Robust Facial Age Estimation [7.667560350473354]
本稿では,分布学習による顔年齢推定のための損失関数を提案する。
FG-NETとCLAP2016のデータセットでの実験結果により、提案された損失の有効性が検証された。
論文 参考訳(メタデータ) (2022-03-31T16:28:34Z) - Towards Speaker Age Estimation with Label Distribution Learning [26.12240876065871]
年齢ラベル間のあいまいな情報を利用し、各年齢ラベルを個別のラベル分布に変換し、ラベル分布学習法(LDL)を用いてデータに適合させる。
本手法は, 年齢分類と回帰アプローチを自然に組み合わせ, 手法の堅牢性を高める。
我々は,NIST SRE08-10データセットと実世界のデータセットを用いて実験を行い,本手法が比較的大きなマージンでベースライン手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-02-23T11:11:58Z) - using multiple losses for accurate facial age estimation [6.851375622634309]
本稿では,分類に基づく手法と比較して,年齢推定をシンプルかつ効果的に行う手法を提案する。
CVPR Chalearn 2016データセット上での年齢-粒度-ネットフレームワークの有効性を検証し,提案手法が個々の損失と比較して予測誤差を低減できることを示す。
論文 参考訳(メタデータ) (2021-06-17T11:18:16Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - PML: Progressive Margin Loss for Long-tailed Age Classification [9.020103398777653]
非拘束顔面年齢分類のためのプログレッシブマージンロス(PML)アプローチを提案する。
私たちのPMLは、いくつかのマージンを強制することによって、年齢ラベルパターンを適応的に洗練することを目指しています。
論文 参考訳(メタデータ) (2021-03-03T02:47:09Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。