論文の概要: Towards Speaker Age Estimation with Label Distribution Learning
- arxiv url: http://arxiv.org/abs/2202.11424v1
- Date: Wed, 23 Feb 2022 11:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:02:10.040870
- Title: Towards Speaker Age Estimation with Label Distribution Learning
- Title(参考訳): ラベル分布学習による話者年齢推定に向けて
- Authors: Shijing Si, Jianzong Wang, Junqing Peng, Jing Xiao
- Abstract要約: 年齢ラベル間のあいまいな情報を利用し、各年齢ラベルを個別のラベル分布に変換し、ラベル分布学習法(LDL)を用いてデータに適合させる。
本手法は, 年齢分類と回帰アプローチを自然に組み合わせ, 手法の堅牢性を高める。
我々は,NIST SRE08-10データセットと実世界のデータセットを用いて実験を行い,本手法が比較的大きなマージンでベースライン手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 26.12240876065871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for speaker age estimation usually treat it as a multi-class
classification or a regression problem. However, precise age identification
remains a challenge due to label ambiguity, \emph{i.e.}, utterances from
adjacent age of the same person are often indistinguishable. To address this,
we utilize the ambiguous information among the age labels, convert each age
label into a discrete label distribution and leverage the label distribution
learning (LDL) method to fit the data. For each audio data sample, our method
produces a age distribution of its speaker, and on top of the distribution we
also perform two other tasks: age prediction and age uncertainty minimization.
Therefore, our method naturally combines the age classification and regression
approaches, which enhances the robustness of our method. We conduct experiments
on the public NIST SRE08-10 dataset and a real-world dataset, which exhibit
that our method outperforms baseline methods by a relatively large margin,
yielding a 10\% reduction in terms of mean absolute error (MAE) on a real-world
dataset.
- Abstract(参考訳): 話者年齢推定の既存の方法は、通常、それを多クラス分類または回帰問題として扱う。
しかし、ラベルの曖昧さのため、正確な年齢識別は依然として課題であり、同一人物の隣接年齢からの発声はしばしば区別できない。
これに対処するために,年齢ラベル間の曖昧な情報を利用し,各年齢ラベルを離散ラベル分布に変換し,そのデータに適合するラベル分布学習(ldl)手法を活用する。
音声データサンプル毎に, 話者の年齢分布を推定し, その分布に加えて, 年齢予測と年齢不確実性最小化の2つのタスクを行う。
そこで,本手法は,年齢分類と回帰アプローチを自然に組み合わせ,手法の堅牢性を高める。
nist sre08-10データセットと実世界のデータセットについて実験を行い、本手法がベースラインメソッドを比較的大きなマージンで上回り、実世界のデータセットにおける平均絶対誤差(mae)を10%減少させることを示した。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - SVLDL: Improved Speaker Age Estimation Using Selective Variance Label
Distribution Learning [24.57668015470307]
本稿では,年齢分布の分散に適応するために,SVLDL法を提案する。
モデルは、WavLMを音声特徴抽出器として使用し、さらにパフォーマンスを向上させるために、性別認識の補助タスクを追加する。
実験の結果,NIST SRE08-10と実世界のデータセットのすべての面において,最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2022-10-18T01:34:31Z) - Re-distributing Biased Pseudo Labels for Semi-supervised Semantic
Segmentation: A Baseline Investigation [30.688753736660725]
疑似ラベルを生成するために,DARS法とDARS法を提案する。
我々の手法は最先端の手法と比較して好適に機能する。
論文 参考訳(メタデータ) (2021-07-23T14:45:14Z) - using multiple losses for accurate facial age estimation [6.851375622634309]
本稿では,分類に基づく手法と比較して,年齢推定をシンプルかつ効果的に行う手法を提案する。
CVPR Chalearn 2016データセット上での年齢-粒度-ネットフレームワークの有効性を検証し,提案手法が個々の損失と比較して予測誤差を低減できることを示す。
論文 参考訳(メタデータ) (2021-06-17T11:18:16Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。