論文の概要: Considerations for Ethical Speech Recognition Datasets
- arxiv url: http://arxiv.org/abs/2305.02081v1
- Date: Wed, 3 May 2023 12:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:54:21.210607
- Title: Considerations for Ethical Speech Recognition Datasets
- Title(参考訳): 倫理的音声認識データセットの考察
- Authors: Orestis Papakyriakopoulos, Alice Xiang
- Abstract要約: 自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
- 参考スコア(独自算出の注目度): 0.799536002595393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech AI Technologies are largely trained on publicly available datasets or
by the massive web-crawling of speech. In both cases, data acquisition focuses
on minimizing collection effort, without necessarily taking the data subjects'
protection or user needs into consideration. This results to models that are
not robust when used on users who deviate from the dominant demographics in the
training set, discriminating individuals having different dialects, accents,
speaking styles, and disfluencies. In this talk, we use automatic speech
recognition as a case study and examine the properties that ethical speech
datasets should possess towards responsible AI applications. We showcase
diversity issues, inclusion practices, and necessary considerations that can
improve trained models, while facilitating model explainability and protecting
users and data subjects. We argue for the legal & privacy protection of data
subjects, targeted data sampling corresponding to user demographics & needs,
appropriate meta data that ensure explainability & accountability in cases of
model failure, and the sociotechnical \& situated model design. We hope this
talk can inspire researchers \& practitioners to design and use more
human-centric datasets in speech technologies and other domains, in ways that
empower and respect users, while improving machine learning models' robustness
and utility.
- Abstract(参考訳): Speech AI Technologiesは、公開データセットや大規模なWebクローリングによって、主にトレーニングされている。
いずれの場合も、データ取得は、データ対象者の保護やユーザニーズを考慮せずに、収集作業の最小化に重点を置いている。
これにより、トレーニングセットにおける支配的な人口層から逸脱するユーザに対して使用した場合、堅牢でないモデルが得られ、異なる方言、アクセント、話し方、ディフルエンシを持つ個人を識別する。
本稿では,自動音声認識を事例研究として,倫理的音声データセットが責任あるaiアプリケーションに対して持つべき特性について検討する。
モデル説明の容易さとユーザとデータ課題の保護を図りながら、トレーニングされたモデルを改善するために必要な多様性問題、包摂的プラクティス、そして考慮事項を紹介します。
我々は,データ対象の法的・プライバシー保護,ユーザ人口統計とニーズに応じた対象データサンプリング,モデル障害発生時の説明可能性と説明責任を保証する適切なメタデータ,社会工学的モデル設計について論じる。
この講演は、マシンラーニングモデルの堅牢性と有用性を改善しつつ、ユーザを力づけて尊重する方法で、音声技術やその他のドメインにおいて、より人間中心のデータセットを設計し、使用するように研究者に促すことを願っている。
関連論文リスト
- Efficiency-oriented approaches for self-supervised speech representation
learning [1.860144985630098]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに、大きなニューラルネットワークモデルのトレーニングを可能にする。
コンピュータビジョン、自然言語処理、生物学、音声など、いくつかの分野で画期的な成果を上げている。
現在の努力にもかかわらず、自己教師付き表現学習における高い計算コストに対応するために、より多くの作業を行うことができる。
論文 参考訳(メタデータ) (2023-12-18T12:32:42Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - Augmented Datasheets for Speech Datasets and Ethical Decision-Making [2.7106766103546236]
音声データセットは音声言語技術(SLT)の訓練に不可欠である
基礎となるトレーニングデータの多様性の欠如は、公平で堅牢なSLT製品を構築する上で、深刻な制限につながる可能性がある。
このようなデータ収集の倫理に関して、基礎となるトレーニングデータに対する監視の欠如がしばしばある。
論文 参考訳(メタデータ) (2023-05-08T12:49:04Z) - Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis [17.172909510518814]
特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
論文 参考訳(メタデータ) (2023-03-27T02:50:02Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。