論文の概要: VoxCeleb Enrichment for Age and Gender Recognition
- arxiv url: http://arxiv.org/abs/2109.13510v1
- Date: Tue, 28 Sep 2021 06:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 00:20:20.819937
- Title: VoxCeleb Enrichment for Age and Gender Recognition
- Title(参考訳): VoxCelebによる年齢・性別認識
- Authors: Khaled Hechmi, Trung Ngo Trong, Ville Hautamaki, Tomi Kinnunen
- Abstract要約: 我々は、VoxCelebデータセットに話者年齢ラベルと(代替)話者性別アノテーションを提供する。
年齢と性別の認識モデルを構築することで,このメタデータの利用を実証する。
また、オリジナルVoxCelebの性別ラベルと当社のラベルを比較して、オリジナルVoxCelebのデータに誤ラベルされている可能性のあるレコードを特定します。
- 参考スコア(独自算出の注目度): 12.520037579004883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VoxCeleb datasets are widely used in speaker recognition studies. Our work
serves two purposes. First, we provide speaker age labels and (an alternative)
annotation of speaker gender. Second, we demonstrate the use of this metadata
by constructing age and gender recognition models with different features and
classifiers. We query different celebrity databases and apply consensus rules
to derive age and gender labels. We also compare the original VoxCeleb gender
labels with our labels to identify records that might be mislabeled in the
original VoxCeleb data. On modeling side, we design a comprehensive study of
multiple features and models for recognizing gender and age. Our best system,
using i-vector features, achieved an F1-score of 0.9829 for gender recognition
task using logistic regression, and the lowest mean absolute error (MAE) in age
regression, 9.443 years, is obtained with ridge regression. This indicates
challenge in age estimation from in-the-wild style speech data.
- Abstract(参考訳): VoxCelebデータセットは話者認識研究で広く使われている。
私たちの仕事は2つの目的がある。
まず、話者年齢ラベルと(代替)話者性別のアノテーションを提供する。
第2に,異なる特徴と分類器を用いた年齢・性別認識モデルを構築し,メタデータの利用を実証する。
我々は、異なる有名人データベースに問い合わせ、年齢と性別のラベルを導出するためにコンセンサスルールを適用します。
また、オリジナルVoxCelebの性別ラベルと当社のラベルを比較して、オリジナルVoxCelebのデータに誤ラベルされている可能性のあるレコードを特定します。
モデル面では、性別と年齢を認識するための複数の特徴とモデルに関する総合的研究を設計する。
i-vector特徴を用いたベストシステムは,ロジスティック回帰を用いた性別認識タスクにおいて0.9829のF1スコアを達成し,年齢回帰における平均絶対誤差(MAE)は9.443歳であった。
これは、wild型音声データからの年齢推定における課題を示す。
関連論文リスト
- GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Estimation of speaker age and height from speech signal using bi-encoder
transformer mixture model [3.1447111126464997]
話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。
男女の音声特性の広さを考慮し、2つの異なるトランスフォーマーエンコーダを提案する。
年齢推定における現在の最先端の成績を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-22T14:39:56Z) - Are Commercial Face Detection Models as Biased as Academic Models? [64.71318433419636]
我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。
現状の学術的顔検出モデルでは、ノイズの頑健性に人口格差があることがわかった。
私たちは、商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。
論文 参考訳(メタデータ) (2022-01-25T02:21:42Z) - What's in a Name? -- Gender Classification of Names with Character Based
Machine Learning Models [6.805167389805055]
本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上の利用者のファーストネームを分析したところ、性別は名前文字列の合成によって非常に効果的に分類できることがわかった。
論文 参考訳(メタデータ) (2021-02-07T01:01:32Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。