論文の概要: Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition
- arxiv url: http://arxiv.org/abs/2404.15176v1
- Date: Tue, 23 Apr 2024 16:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.224258
- Title: Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition
- Title(参考訳): 音声受動 : トランスジェンダー音声遷移評価のための非バイナリ音声性予測システム
- Authors: David Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard,
- Abstract要約: 本稿では,VFP(Continuous Voice Femininity Percentage)を用いて音声を記述可能なソフトウェアを提案する。
このプロセスでは、トランスジェンダー話者の音声移行と、それらをサポートする音声セラピストを意図している。
- 参考スコア(独自算出の注目度): 0.7915536524413253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a software allowing to describe voices using a continuous Voice Femininity Percentage (VFP). This system is intended for transgender speakers during their voice transition and for voice therapists supporting them in this process. A corpus of 41 French cis- and transgender speakers was recorded. A perceptual evaluation allowed 57 participants to estimate the VFP for each voice. Binary gender classification models were trained on external gender-balanced data and used on overlapping windows to obtain average gender prediction estimates, which were calibrated to predict VFP and obtained higher accuracy than $F_0$ or vocal track length-based models. Training data speaking style and DNN architecture were shown to impact VFP estimation. Accuracy of the models was affected by speakers' age. This highlights the importance of style, age, and the conception of gender as binary or not, to build adequate statistical representations of cultural concepts.
- Abstract(参考訳): 本稿では,VFP(Continuous Voice Femininity Percentage)を用いて音声を記述可能なソフトウェアを提案する。
このシステムは、トランスジェンダー話者の音声移行と、これらをサポートする音声セラピストを対象としている。
41のフランス語 cis- and transgender 話者のコーパスが記録されている。
知覚的評価により、57人の参加者が各声のVFPを推定することができた。
二元性分類モデルは、外的性別バランスデータに基づいて訓練され、重なり合うウィンドウ上で平均性予測値を得るために用いられ、VFPを推定するために校正され、F_0$または声帯長に基づくモデルよりも高い精度を得た。
トレーニングデータとDNNアーキテクチャは,VFP推定に影響を及ぼすことが示された。
モデルの精度は話者の年齢に影響された。
これは、文化的概念の適切な統計的表現を構築するために、スタイル、年齢、男女の概念の重要性を強調している。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology [1.7126708168238125]
トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
論文 参考訳(メタデータ) (2024-07-09T21:19:49Z) - Evolution of Voices in French Audiovisual Media Across Genders and Age in a Diachronic Perspective [0.9449650062296824]
本稿では,フランスのメディアアーカイブから1023人の話者の声のダイアクロニック音響解析を行った。
話者は、4つの期間(1955/56年、1975/76年、1995/96年、2015/16年)、4つの年齢グループ(20-35年、36-50年、51-65年、65年)と2つの性別に基づいて32のカテゴリーに分散している。
論文 参考訳(メタデータ) (2024-04-24T18:00:06Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech
Recognition through Pitch Manipulation [20.731375136671605]
本稿では,基本周波数(f0)とホルマントを操作するデータ拡張手法を提案する。
この手法は、表現不足の女性話者の声をシミュレートすることにより、性別間のデータ不均衡を低減する。
自発性英語音声の実験では,女性話者の発話に対して,WERの相対的な改善が9.87%に達することが示された。
論文 参考訳(メタデータ) (2023-10-10T12:55:22Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Generating Multilingual Gender-Ambiguous Text-to-Speech Voices [4.005334718121374]
本研究は,マルチスピーカ・マルチリンガル・セッティングにおいて,男女あいまいなTTS音声を新たに生成する作業に対処する。
我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。
論文 参考訳(メタデータ) (2022-11-01T10:40:24Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。