論文の概要: Gender Representation in Open Source Speech Resources
- arxiv url: http://arxiv.org/abs/2003.08132v1
- Date: Wed, 18 Mar 2020 10:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:07:45.010474
- Title: Gender Representation in Open Source Speech Resources
- Title(参考訳): オープンソース音声資源におけるジェンダー表現
- Authors: Mahault Garnerin, Solange Rossato, Laurent Besacier
- Abstract要約: 本稿では,Open Speech and Language Resourceプラットフォームを通じて利用可能な音声リソースにおけるジェンダー表現について検討する。
オープンソースコーパスにおける性別情報の発見は簡単ではなく,他のコーパス特性に依存していることを示す。
- 参考スコア(独自算出の注目度): 25.906210624418275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of artificial intelligence (AI) and the growing use of
deep-learning architectures, the question of ethics, transparency and fairness
of AI systems has become a central concern within the research community. We
address transparency and fairness in spoken language systems by proposing a
study about gender representation in speech resources available through the
Open Speech and Language Resource platform. We show that finding gender
information in open source corpora is not straightforward and that gender
balance depends on other corpus characteristics (elicited/non elicited speech,
low/high resource language, speech task targeted). The paper ends with
recommendations about metadata and gender information for researchers in order
to assure better transparency of the speech systems built using such corpora.
- Abstract(参考訳): 人工知能(AI)の台頭とディープラーニングアーキテクチャの利用の増加に伴い、AIシステムの倫理、透明性、公正性の問題は研究コミュニティの中心的な関心事となっている。
我々は,open speech and language resource platform を通じて利用可能な音声資源における性表現に関する研究を行い,音声言語システムの透明性と公平性について論じる。
オープンソースコーパスにおけるジェンダー情報の発見は簡単ではなく、ジェンダーバランスは他のコーパスの特徴にも依存することを示す(Elicited/non elicited speech, Low/high Resource Language, speech task targeted)。
この論文は、このようなコーパスを用いて構築された音声システムの透明性を高めるために、研究者のためのメタデータと性別情報に関する勧告で締めくくられる。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Overlapped speech and gender detection with WavLM pre-trained features [6.054285771277486]
本稿では,フランス音声メディアにおける女性と男性間の相互作用を研究するために,重なり合う発話と性別の検出に焦点を当てる。
本稿では,膨大な音声データに基づいて事前学習を行うことの利点を生かしたWavLMモデルを提案する。
ニューラルGDは、フランスの放送ニュースALLIESデータの性別バランスの取れたサブセットに基づいてWavLM入力で訓練され、97.9%の精度が得られる。
論文 参考訳(メタデータ) (2022-09-09T08:00:47Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Words of Wisdom: Representational Harms in Learning From AI
Communication [9.998078491879143]
すべてのAIコミュニケーションを含むすべての言語は、言語の作成に貢献した人間や人間のアイデンティティに関する情報を符号化している、と私たちは主張する。
しかし、AI通信では、ユーザはソースにマッチしないID情報をインデックスすることができる。
これは、ある文化集団に関連する言語が「標準」または「中立」として提示される場合、表現上の害をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-11-16T15:59:49Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。