論文の概要: Overlapped speech and gender detection with WavLM pre-trained features
- arxiv url: http://arxiv.org/abs/2209.04167v1
- Date: Fri, 9 Sep 2022 08:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:03:01.799005
- Title: Overlapped speech and gender detection with WavLM pre-trained features
- Title(参考訳): WavLM事前学習機能を用いた過剰音声と性別検出
- Authors: Martin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier
- Abstract要約: 本稿では,フランス音声メディアにおける女性と男性間の相互作用を研究するために,重なり合う発話と性別の検出に焦点を当てる。
本稿では,膨大な音声データに基づいて事前学習を行うことの利点を生かしたWavLMモデルを提案する。
ニューラルGDは、フランスの放送ニュースALLIESデータの性別バランスの取れたサブセットに基づいてWavLM入力で訓練され、97.9%の精度が得られる。
- 参考スコア(独自算出の注目度): 6.054285771277486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article focuses on overlapped speech and gender detection in order to
study interactions between women and men in French audiovisual media (Gender
Equality Monitoring project). In this application context, we need to
automatically segment the speech signal according to speakers gender, and to
identify when at least two speakers speak at the same time. We propose to use
WavLM model which has the advantage of being pre-trained on a huge amount of
speech data, to build an overlapped speech detection (OSD) and a gender
detection (GD) systems. In this study, we use two different corpora. The DIHARD
III corpus which is well adapted for the OSD task but lack gender information.
The ALLIES corpus fits with the project application context. Our best OSD
system is a Temporal Convolutional Network (TCN) with WavLM pre-trained
features as input, which reaches a new state-of-the-art F1-score performance on
DIHARD. A neural GD is trained with WavLM inputs on a gender balanced subset of
the French broadcast news ALLIES data, and obtains an accuracy of 97.9%. This
work opens new perspectives for human science researchers regarding the
differences of representation between women and men in French media.
- Abstract(参考訳): 本稿では,フランス音声メディア(ジェンダー平等監視プロジェクト)における男女間の相互作用を研究するために,重なり合った発話と性別検出に焦点を当てた。
このアプリケーションでは、話者の性別に応じて音声信号を自動的に分割し、少なくとも2人の話者が同時に話すことを識別する必要がある。
本稿では,大量の音声データに基づいて事前学習を行うWavLMモデルを用いて,重複した音声検出(OSD)と性別検出(GD)システムを構築することを提案する。
本研究では2つの異なるコーパスを用いる。
DIHARD IIIコーパスはOSDタスクに適しているが、性別情報がない。
ALLIESコーパスは、プロジェクトアプリケーションコンテキストに適合します。
我々の最良のosdシステムは、wavlmを入力として事前学習した時間的畳み込みネットワーク(tcn)であり、dihard上で新しい最先端のf1-score性能に達する。
ニューラルgdは、フランスの放送ニュースアソシエイトデータの男女均衡サブセット上でwavlm入力で訓練され、97.9%の精度が得られる。
この研究は、フランスメディアにおける女性と男性の表現の違いに関する、人間科学研究者の新しい視点を開くものである。
関連論文リスト
- Addressing speaker gender bias in large scale speech translation systems [20.698663542717544]
本研究では,音声翻訳(ST)システムにおける話者性バイアスの問題に対処する。
我々は、話者の性別に基づいて翻訳をコスト効率よく修正するために、Large Language Models (LLMs) を用いている。
女性話者の翻訳能力は, ベースラインや大規模STシステムと比較して70%向上した。
論文 参考訳(メタデータ) (2025-01-10T14:20:46Z) - Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。
本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。
以上の結果から,言語やモデルによって異なる傾向がみられた。
論文 参考訳(メタデータ) (2024-02-28T00:24:29Z) - No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech
Recognition through Pitch Manipulation [20.731375136671605]
本稿では,基本周波数(f0)とホルマントを操作するデータ拡張手法を提案する。
この手法は、表現不足の女性話者の声をシミュレートすることにより、性別間のデータ不均衡を低減する。
自発性英語音声の実験では,女性話者の発話に対して,WERの相対的な改善が9.87%に達することが示された。
論文 参考訳(メタデータ) (2023-10-10T12:55:22Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - A Study of Gender Impact in Self-supervised Models for Speech-to-Text
Systems [25.468558523679363]
我々は、事前学習データにおいて、性別固有のwav2vec 2.0モデルを、性別バランスの異なるモデルと比較し、比較する。
エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。
論文 参考訳(メタデータ) (2022-04-04T11:28:19Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。