論文の概要: Demographic Attributes Prediction from Speech Using WavLM Embeddings
- arxiv url: http://arxiv.org/abs/2502.12007v1
- Date: Mon, 17 Feb 2025 16:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.423945
- Title: Demographic Attributes Prediction from Speech Using WavLM Embeddings
- Title(参考訳): WavLM埋め込みを用いた音声からの予測
- Authors: Yuchen Yang, Thomas Thebaud, Najim Dehak,
- Abstract要約: 本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。
提案フレームワークは,年齢予測のための平均絶対誤差(MAE)が4.94で,性別分類のための99.81%以上の精度で達成されている。
- 参考スコア(独自算出の注目度): 25.00298717665857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a general classifier based on WavLM features, to infer demographic characteristics, such as age, gender, native language, education, and country, from speech. Demographic feature prediction plays a crucial role in applications like language learning, accessibility, and digital forensics, enabling more personalized and inclusive technologies. Leveraging pretrained models for embedding extraction, the proposed framework identifies key acoustic and linguistic fea-tures associated with demographic attributes, achieving a Mean Absolute Error (MAE) of 4.94 for age prediction and over 99.81% accuracy for gender classification across various datasets. Our system improves upon existing models by up to relative 30% in MAE and up to relative 10% in accuracy and F1 scores across tasks, leveraging a diverse range of datasets and large pretrained models to ensure robustness and generalizability. This study offers new insights into speaker diversity and provides a strong foundation for future research in speech-based demographic profiling.
- Abstract(参考訳): 本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。
デモグラフィックの特徴予測は、言語学習、アクセシビリティ、デジタル法医学などのアプリケーションにおいて重要な役割を担い、よりパーソナライズされ包括的技術を可能にする。
組込み抽出のための事前学習モデルの活用により,年齢予測のための平均絶対誤差(MAE)の4.94と,さまざまなデータセットの性別分類における99.81%以上の精度を達成し,人口統計特性に関連する重要な音響的・言語的特徴を識別する。
本システムでは,多種多様なデータセットと大規模事前学習モデルを活用し,ロバスト性と一般化性を確保することにより,MAEにおける最大30%の精度とタスク間のF1スコアを最大10%向上する。
本研究は,話者の多様性に関する新たな知見を提供するとともに,音声に基づく人口統計調査における今後の研究の基盤となる。
関連論文リスト
- Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring? [3.7498611358320733]
大規模言語モデル (LLM) は自動エッセイ・スコーリング (AES) で広く使われている。
本研究は,学生の属性の予測力と評価課題における評価バイアスとの関係について検討した。
論文 参考訳(メタデータ) (2025-04-30T05:36:28Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - A Predictive Model of Digital Information Engagement: Forecasting User
Engagement With English Words by Incorporating Cognitive Biases,
Computational Linguistics and Natural Language Processing [3.09766013093045]
本研究は,デジタル情報エンゲージメント(IE)の新しい予測モデルの導入と実証実験である。
READモデルは、重要な認知バイアスを計算言語学や自然言語処理と統合し、情報のエンゲージメントに関する多次元的視点を開発する。
READモデルの可能性は、ビジネス、教育、政府、医療など、さまざまな領域に及んでいる。
論文 参考訳(メタデータ) (2023-07-26T20:58:47Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Can Demographic Factors Improve Text Classification? Revisiting
Demographic Adaptation in the Age of Transformers [34.768337465321395]
従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。
事前学習したトランスフォーマーに外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。
我々は、連続言語モデリングと動的マルチタスク学習を用いて、性別と年齢の人口動態の表現に適応する。
論文 参考訳(メタデータ) (2022-10-13T21:16:27Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。