Fugu-MT 論文翻訳(概要): Demographic Attributes Prediction from Speech Using WavLM Embeddings

論文の概要: Demographic Attributes Prediction from Speech Using WavLM Embeddings

arxiv url: http://arxiv.org/abs/2502.12007v1
Date: Mon, 17 Feb 2025 16:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.423945
Title: Demographic Attributes Prediction from Speech Using WavLM Embeddings
Title（参考訳）: WavLM埋め込みを用いた音声からの予測
Authors: Yuchen Yang, Thomas Thebaud, Najim Dehak,
Abstract要約: 本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。提案フレームワークは,年齢予測のための平均絶対誤差(MAE)が4.94で,性別分類のための99.81%以上の精度で達成されている。
参考スコア（独自算出の注目度）: 25.00298717665857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a general classifier based on WavLM features, to infer demographic characteristics, such as age, gender, native language, education, and country, from speech. Demographic feature prediction plays a crucial role in applications like language learning, accessibility, and digital forensics, enabling more personalized and inclusive technologies. Leveraging pretrained models for embedding extraction, the proposed framework identifies key acoustic and linguistic fea-tures associated with demographic attributes, achieving a Mean Absolute Error (MAE) of 4.94 for age prediction and over 99.81% accuracy for gender classification across various datasets. Our system improves upon existing models by up to relative 30% in MAE and up to relative 10% in accuracy and F1 scores across tasks, leveraging a diverse range of datasets and large pretrained models to ensure robustness and generalizability. This study offers new insights into speaker diversity and provides a strong foundation for future research in speech-based demographic profiling.
Abstract（参考訳）: 本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。デモグラフィックの特徴予測は、言語学習、アクセシビリティ、デジタル法医学などのアプリケーションにおいて重要な役割を担い、よりパーソナライズされ包括的技術を可能にする。組込み抽出のための事前学習モデルの活用により,年齢予測のための平均絶対誤差(MAE)の4.94と,さまざまなデータセットの性別分類における99.81%以上の精度を達成し,人口統計特性に関連する重要な音響的・言語的特徴を識別する。本システムでは,多種多様なデータセットと大規模事前学習モデルを活用し,ロバスト性と一般化性を確保することにより,MAEにおける最大30%の精度とタスク間のF1スコアを最大10%向上する。本研究は,話者の多様性に関する新たな知見を提供するとともに,音声に基づく人口統計調査における今後の研究の基盤となる。

関連論文リスト

Reading Between the Tokens: Improving Preference Predictions through Mechanistic Forecasting [8.075670640219784]
人口統計学およびイデオロギー的情報によって、大規模言語モデル内の潜在的パーティエンコーディングコンポーネントがどのように活性化されるかを検討する。この内部知識を機械的予測によって活用することで,予測精度が向上することが判明した。
論文参考訳（メタデータ） (2026-02-02T22:39:06Z)
Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study [1.6682715542079583]
汎用AIモデルのトレーニングに使用される大規模なウェブスクレイプテキストコーパスは、しばしば有害な人口統計学的対象の社会的バイアスを含んでいる。本稿では、人口統計学的対象の社会的偏見を検出するためのLCMの能力を評価するための、英語テキストを対象とした総合的な評価フレームワークを提案する。次に,学習の促進,文脈内学習,微調整など,スケールとテクニックをまたいだモデルを用いて,体系的な評価を行う。
論文参考訳（メタデータ） (2025-10-06T09:45:32Z)
Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring? [3.7498611358320733]
大規模言語モデル (LLM) は自動エッセイ・スコーリング (AES) で広く使われている。本研究は,学生の属性の予測力と評価課題における評価バイアスとの関係について検討した。
論文参考訳（メタデータ） (2025-04-30T05:36:28Z)
Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。 1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文参考訳（メタデータ） (2024-05-14T12:53:32Z)
Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文参考訳（メタデータ） (2023-10-09T04:48:14Z)
Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文参考訳（メタデータ） (2023-09-13T15:42:06Z)
A Predictive Model of Digital Information Engagement: Forecasting User Engagement With English Words by Incorporating Cognitive Biases, Computational Linguistics and Natural Language Processing [3.09766013093045]
本研究は,デジタル情報エンゲージメント(IE)の新しい予測モデルの導入と実証実験である。 READモデルは、重要な認知バイアスを計算言語学や自然言語処理と統合し、情報のエンゲージメントに関する多次元的視点を開発する。 READモデルの可能性は、ビジネス、教育、政府、医療など、さまざまな領域に及んでいる。
論文参考訳（メタデータ） (2023-07-26T20:58:47Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Can Demographic Factors Improve Text Classification? Revisiting Demographic Adaptation in the Age of Transformers [34.768337465321395]
従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。事前学習したトランスフォーマーに外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。我々は、連続言語モデリングと動的マルチタスク学習を用いて、性別と年齢の人口動態の表現に適応する。
論文参考訳（メタデータ） (2022-10-13T21:16:27Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文参考訳（メタデータ） (2022-04-11T14:42:54Z)
Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文参考訳（メタデータ） (2021-11-30T06:28:58Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
General-Purpose Speech Representation Learning through a Self-Supervised Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文参考訳（メタデータ） (2021-02-03T08:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。