論文の概要: Generating Gender-Ambiguous Text-to-Speech Voices
- arxiv url: http://arxiv.org/abs/2211.00375v1
- Date: Tue, 1 Nov 2022 10:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:35:57.871194
- Title: Generating Gender-Ambiguous Text-to-Speech Voices
- Title(参考訳): ジェンダー不明瞭テキスト音声の生成
- Authors: Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis,
Nikolaos Ellinas, Karolos Nikitaras, Konstantinos Klapsas, Georgios
Vardaxoglou, Panos Kakoulidis, June Sig Sung, Inchul Hwang, Aimilios
Chalamandaris, Pirros Tsiakoulis and Spyros Raptis
- Abstract要約: 音声アシスタントや音声ユーザインタフェースの性別は、その認識されたアイデンティティの中心的な要素である。
本研究は,既存の人物に対応しないジェンダー・あいまいな音声音声を生成するタスクに対処する。
- 参考スコア(独自算出の注目度): 4.336561084741513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gender of a voice assistant or any voice user interface is a central
element of its perceived identity. While a female voice is a common choice,
there is an increasing interest in alternative approaches where the gender is
ambiguous rather than clearly identifying as female or male. This work
addresses the task of generating gender-ambiguous text-to-speech (TTS) voices
that do not correspond to any existing person. This is accomplished by sampling
from a latent speaker embeddings' space that was formed while training a
multilingual, multi-speaker TTS system on data from multiple male and female
speakers. Various options are investigated regarding the sampling process. In
our experiments, the effects of different sampling choices on the gender
ambiguity and the naturalness of the resulting voices are evaluated. The
proposed method is shown able to efficiently generate novel speakers that are
superior to a baseline averaged speaker embedding. To our knowledge, this is
the first systematic approach that can reliably generate a range of
gender-ambiguous voices to meet diverse user requirements.
- Abstract(参考訳): 音声アシスタントまたは任意の音声ユーザーインタフェースの性別は、その認識されたアイデンティティの中心要素である。
女性の声は一般的な選択であるが、女性や男性と明確に区別するよりも、性別が曖昧である別のアプローチへの関心が高まっている。
本研究は,既存の人物と一致しない性あいまいな音声音声(TTS)を生成するタスクに対処する。
これは、複数の話者からのデータに基づいて多言語多話者ttsシステムを訓練中に形成された潜在話者埋め込み空間からサンプリングすることで達成される。
サンプリングプロセスについては様々な選択肢が検討されている。
実験では、異なるサンプリング選択が性別のあいまいさや発声の自然性に及ぼす影響を評価した。
提案手法は, ベースライン平均話者埋め込みよりも優れた新しい話者を効率的に生成できることを示す。
我々の知る限り、これは多様なユーザー要求を満たすために、性別とあいまいな声を確実に生成できる最初の体系的なアプローチである。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology [1.7126708168238125]
トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
論文 参考訳(メタデータ) (2024-07-09T21:19:49Z) - Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。
本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。
以上の結果から,言語やモデルによって異なる傾向がみられた。
論文 参考訳(メタデータ) (2024-02-28T00:24:29Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。