論文の概要: Considerations for Ethical Speech Recognition Datasets
- arxiv url: http://arxiv.org/abs/2305.02081v1
- Date: Wed, 3 May 2023 12:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:54:21.210607
- Title: Considerations for Ethical Speech Recognition Datasets
- Title(参考訳): 倫理的音声認識データセットの考察
- Authors: Orestis Papakyriakopoulos, Alice Xiang
- Abstract要約: 自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
- 参考スコア(独自算出の注目度): 0.799536002595393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech AI Technologies are largely trained on publicly available datasets or
by the massive web-crawling of speech. In both cases, data acquisition focuses
on minimizing collection effort, without necessarily taking the data subjects'
protection or user needs into consideration. This results to models that are
not robust when used on users who deviate from the dominant demographics in the
training set, discriminating individuals having different dialects, accents,
speaking styles, and disfluencies. In this talk, we use automatic speech
recognition as a case study and examine the properties that ethical speech
datasets should possess towards responsible AI applications. We showcase
diversity issues, inclusion practices, and necessary considerations that can
improve trained models, while facilitating model explainability and protecting
users and data subjects. We argue for the legal & privacy protection of data
subjects, targeted data sampling corresponding to user demographics & needs,
appropriate meta data that ensure explainability & accountability in cases of
model failure, and the sociotechnical \& situated model design. We hope this
talk can inspire researchers \& practitioners to design and use more
human-centric datasets in speech technologies and other domains, in ways that
empower and respect users, while improving machine learning models' robustness
and utility.
- Abstract(参考訳): Speech AI Technologiesは、公開データセットや大規模なWebクローリングによって、主にトレーニングされている。
いずれの場合も、データ取得は、データ対象者の保護やユーザニーズを考慮せずに、収集作業の最小化に重点を置いている。
これにより、トレーニングセットにおける支配的な人口層から逸脱するユーザに対して使用した場合、堅牢でないモデルが得られ、異なる方言、アクセント、話し方、ディフルエンシを持つ個人を識別する。
本稿では,自動音声認識を事例研究として,倫理的音声データセットが責任あるaiアプリケーションに対して持つべき特性について検討する。
モデル説明の容易さとユーザとデータ課題の保護を図りながら、トレーニングされたモデルを改善するために必要な多様性問題、包摂的プラクティス、そして考慮事項を紹介します。
我々は,データ対象の法的・プライバシー保護,ユーザ人口統計とニーズに応じた対象データサンプリング,モデル障害発生時の説明可能性と説明責任を保証する適切なメタデータ,社会工学的モデル設計について論じる。
この講演は、マシンラーニングモデルの堅牢性と有用性を改善しつつ、ユーザを力づけて尊重する方法で、音声技術やその他のドメインにおいて、より人間中心のデータセットを設計し、使用するように研究者に促すことを願っている。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Efficiency-oriented approaches for self-supervised speech representation
learning [1.860144985630098]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに、大きなニューラルネットワークモデルのトレーニングを可能にする。
コンピュータビジョン、自然言語処理、生物学、音声など、いくつかの分野で画期的な成果を上げている。
現在の努力にもかかわらず、自己教師付き表現学習における高い計算コストに対応するために、より多くの作業を行うことができる。
論文 参考訳(メタデータ) (2023-12-18T12:32:42Z) - Augmented Datasheets for Speech Datasets and Ethical Decision-Making [2.7106766103546236]
音声データセットは音声言語技術(SLT)の訓練に不可欠である
基礎となるトレーニングデータの多様性の欠如は、公平で堅牢なSLT製品を構築する上で、深刻な制限につながる可能性がある。
このようなデータ収集の倫理に関して、基礎となるトレーニングデータに対する監視の欠如がしばしばある。
論文 参考訳(メタデータ) (2023-05-08T12:49:04Z) - Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis [17.172909510518814]
特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
論文 参考訳(メタデータ) (2023-03-27T02:50:02Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。