論文の概要: Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology
- arxiv url: http://arxiv.org/abs/2407.07235v1
- Date: Tue, 9 Jul 2024 21:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:31:06.406389
- Title: Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology
- Title(参考訳): ジェンダー後のスピーチ: 音声科学とテクノロジーの次のステップ
- Authors: Robin Netzorg, Alyssa Cote, Sumi Koshin, Klo Vivienne Garoute, Gopala Krishna Anumanchipalli,
- Abstract要約: トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
- 参考スコア(独自算出の注目度): 1.7126708168238125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As experts in voice modification, trans-feminine gender-affirming voice teachers have unique perspectives on voice that confound current understandings of speaker identity. To demonstrate this, we present the Versatile Voice Dataset (VVD), a collection of three speakers modifying their voices along gendered axes. The VVD illustrates that current approaches in speaker modeling, based on categorical notions of gender and a static understanding of vocal texture, fail to account for the flexibility of the vocal tract. Utilizing publicly-available speaker embeddings, we demonstrate that gender classification systems are highly sensitive to voice modification, and speaker verification systems fail to identify voices as coming from the same speaker as voice modification becomes more drastic. As one path towards moving beyond categorical and static notions of speaker identity, we propose modeling individual qualities of vocal texture such as pitch, resonance, and weight.
- Abstract(参考訳): 音声修正の専門家として、トランスフェミニン性確認音声教師は、現在の話者アイデンティティの理解を損なうような、音声に関するユニークな視点を持っている。
そこで本研究では,VVD(Versatile Voice Dataset, Versatile Voice Dataset, VVD)について紹介する。
VVDは、ジェンダーのカテゴリー的概念と声道テクスチャの静的理解に基づく話者モデリングにおける現在のアプローチが、声道の柔軟性を考慮しないことを示している。
公に利用可能な話者埋め込みを利用して、性別分類システムは音声修正に非常に敏感であることを示し、話者検証システムは、音声修正がより顕著になるにつれて、同じ話者から来るものを特定するのに失敗する。
話者識別のカテゴリー的および静的な概念を超えて進むための1つの道として、ピッチ、共鳴、重みといった声質の個々の特性をモデル化することを提案する。
関連論文リスト
- Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition [0.7915536524413253]
本稿では,VFP(Continuous Voice Femininity Percentage)を用いて音声を記述可能なソフトウェアを提案する。
このプロセスでは、トランスジェンダー話者の音声移行と、それらをサポートする音声セラピストを意図している。
論文 参考訳(メタデータ) (2024-04-23T16:15:39Z) - Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文 参考訳(メタデータ) (2023-12-22T10:00:24Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - Towards an Interpretable Representation of Speaker Identity via
Perceptual Voice Qualities [4.95865031722089]
知覚音声品質(PQ)に基づく話者識別の可能な解釈可能な表現を提案する。
事前の信念とは対照的に、これらのPQは非専門家のアンサンブルによって可聴性を示す。
論文 参考訳(メタデータ) (2023-10-04T00:06:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Generating Multilingual Gender-Ambiguous Text-to-Speech Voices [4.005334718121374]
本研究は,マルチスピーカ・マルチリンガル・セッティングにおいて,男女あいまいなTTS音声を新たに生成する作業に対処する。
我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。
論文 参考訳(メタデータ) (2022-11-01T10:40:24Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。