論文の概要: Just Because We Camp, Doesn't Mean We Should: The Ethics of Modelling Queer Voices
- arxiv url: http://arxiv.org/abs/2406.07504v1
- Date: Tue, 11 Jun 2024 17:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:36:00.959810
- Title: Just Because We Camp, Doesn't Mean We Should: The Ethics of Modelling Queer Voices
- Title(参考訳): 私たちがキャンプするからといって、クェア音声をモデル化する倫理的理由にはならない
- Authors: Atli Sigurgeirsson, Eddie L. Ungless,
- Abstract要約: 私たちは、典型的なパイプラインが「ゲイ・ボイス」として知られるスタイルを捉える能力をテストする。
合成音声は「ゲイ音声」の話者に対して、それに対応する基礎的真実よりも、(LGBTQ+の参加者による)「無同性愛者」の音声として評価されている。
ゲイ・ボイス」の喪失はアクセシビリティに影響を及ぼす。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern voice cloning models claim to be able to capture a diverse range of voices. We test the ability of a typical pipeline to capture the style known colloquially as "gay voice" and notice a homogenisation effect: synthesised speech is rated as sounding significantly "less gay" (by LGBTQ+ participants) than its corresponding ground-truth for speakers with "gay voice", but ratings actually increase for control speakers. Loss of "gay voice" has implications for accessibility. We also find that for speakers with "gay voice", loss of "gay voice" corresponds to lower similarity ratings. However, we caution that improving the ability of such models to synthesise ``gay voice'' comes with a great number of risks. We use this pipeline as a starting point for a discussion on the ethics of modelling queer voices more broadly. Collecting "clean" queer data has safety and fairness ramifications, and the resulting technology may cause harms from mockery to death.
- Abstract(参考訳): 現代の音声クローンモデルは、多様な声を捉えることができると主張している。
合成された音声は、対応する「ゲイ音声」話者に対して、対応する基礎的構造よりも、(LGBTQ+参加者による)「ゲイでない」音として評価されるが、実際に制御話者に対して評価が増加する。
ゲイ・ボイス」の喪失はアクセシビリティに影響を及ぼす。
また,「ゲイ・ボイス」の話者の場合,「ゲイ・ボイス」の喪失は類似度を低くすることがわかった。
しかし,このようなモデルによる「ゲイ・ボイス」の合成能力の向上には多くのリスクが伴うことに留意する。
私たちはこのパイプラインを、より広い範囲でクイア音声をモデル化する倫理に関する議論の出発点として使用しています。
クリーンな」クイアデータを集めることは、安全性と公平性に影響を及ぼし、その結果、モックーから死への害を引き起こす可能性がある。
関連論文リスト
- Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology [1.7126708168238125]
トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
論文 参考訳(メタデータ) (2024-07-09T21:19:49Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - PerMod: Perceptually Grounded Voice Modification with Latent Diffusion
Models [5.588733538696248]
PerModは、入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルである。
以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。
我々は、PerModが典型音声に対して望まれる知覚特性を持つ音声を生成するが、非典型音声では不十分であることを示す。
論文 参考訳(メタデータ) (2023-12-13T20:14:27Z) - Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。