論文の概要: Right the docs: Characterising voice dataset documentation practices
used in machine learning
- arxiv url: http://arxiv.org/abs/2303.10721v1
- Date: Sun, 19 Mar 2023 17:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:36:48.681110
- Title: Right the docs: Characterising voice dataset documentation practices
used in machine learning
- Title(参考訳): 正しいドキュメント:機械学習で使用される音声データセットドキュメンテーションの実践の特徴
- Authors: Kathy Reid and Elizabeth T. Williams
- Abstract要約: 音声対応技術は急速に普及しており、音声認識や音声活動検出などの機械学習(ML)対応コンポーネントで構成されている。
しかし、これらのシステムは全員にとってまだうまく機能しない。
偏見は、他者を支持する個人の個人やコホートに対する体系的かつ不公平な差別である。
現在のVDDプラクティスは、不適切で不適切で不適切なものであることが分かっています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice-enabled technology is quickly becoming ubiquitous, and is constituted
from machine learning (ML)-enabled components such as speech recognition and
voice activity detection. However, these systems don't yet work well for
everyone. They exhibit bias - the systematic and unfair discrimination against
individuals or cohorts of individuals in favour of others (Friedman &
Nissembaum, 1996) - across axes such as age, gender and accent.
ML is reliant on large datasets for training. Dataset documentation is
designed to give ML Practitioners (MLPs) a better understanding of a dataset's
characteristics. However, there is a lack of empirical research on voice
dataset documentation specifically. Additionally, while MLPs are frequent
participants in fairness research, little work focuses on those who work with
voice data. Our work makes an empirical contribution to this gap.
Here, we combine two methods to form an exploratory study. First, we
undertake 13 semi-structured interviews, exploring multiple perspectives of
voice dataset documentation practice. Using open and axial coding methods, we
explore MLPs' practices through the lenses of roles and tradeoffs. Drawing from
this work, we then purposively sample voice dataset documents (VDDs) for 9
voice datasets. Our findings then triangulate these two methods, using the
lenses of MLP roles and trade-offs. We find that current VDD practices are
inchoate, inadequate and incommensurate. The characteristics of voice datasets
are codified in fragmented, disjoint ways that often do not meet the needs of
MLPs. Moreover, they cannot be readily compared, presenting a barrier to
practitioners' bias reduction efforts.
We then discuss the implications of these findings for bias practices in
voice data and speech technologies. We conclude by setting out a program of
future work to address these findings -- that is, how we may "right the docs".
- Abstract(参考訳): 音声対応技術は急速に普及しており、音声認識や音声活動検出などの機械学習(ML)対応コンポーネントで構成されている。
しかし、これらのシステムは全員にとってまだうまく機能しない。
彼らは(Friedman & Nissembaum, 1996)、年齢、性別、アクセントなどの軸を越えて、個人または個人の個人に対する体系的かつ不公平な差別の偏見を示す。
mlはトレーニングのために大きなデータセットに依存する。
データセットドキュメンテーションは、MLPractitioners(MLP)がデータセットの特徴をよりよく理解できるように設計されている。
しかし、音声データセットドキュメンテーションに関する実証研究は、特に不足している。
さらに、MLPはフェアネス研究に頻繁に参加する一方で、音声データを扱う人々に焦点を当てる研究はほとんどない。
私たちの仕事は、このギャップに実証的な貢献をする。
ここでは2つの方法を組み合わせて探索研究を行う。
まず、13の半構造化インタビューを行い、音声データセットドキュメンテーションの実践を多面的に検討する。
オープンおよびアキシアルコーディング手法を用いて,役割とトレードオフのレンズを通してmlpのプラクティスを探求する。
この研究から,9つの音声データセットに対して音声データセット文書(vdds)を推定した。
MLPの役割とトレードオフのレンズを用いて,これらの2つの手法を三角測量した。
現在のvddプラクティスは不正確で不十分で不正確である。
音声データセットの特徴は断片化され、しばしばMLPのニーズに合わない不連続な方法で符号化される。
さらに,実践者のバイアス低減への障壁として,簡単に比較することはできない。
次に,これらの知見が音声データや音声技術におけるバイアス実践に与える影響について論じる。
私たちは、これらの発見に対処する将来の研究プログラム、すなわち、どのようにして「ドキュメントを正しくする」かを設定して結論付けます。
関連論文リスト
- Impact of Decoding Methods on Human Alignment of Conversational LLMs [11.673312535250263]
我々は, 物質, スタイル, 心理指標の配向に関する新しい尺度を提示する。
タスク指向のデータセットとオープンエンドのデータセットは、アライメントの点で異なる結果が得られます。
論文 参考訳(メタデータ) (2024-07-28T16:31:09Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - Understanding the Dataset Practitioners Behind Large Language Model Development [5.48392160519422]
私たちは、Googleというテクノロジー企業における“データセットの実践者”の役割を定義します。
我々は,これらの実践者の横断的なインタビューを行う。
データ品質が最優先事項であるにも関わらず、データ品質とそれを評価する方法に関するコンセンサスはほとんどありません。
論文 参考訳(メタデータ) (2024-02-21T23:50:37Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks? [31.39009622826369]
我々は、データ品質を改善する方法として、先行研究で提案された介入の有効性を比較した。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めていることを見出した。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難であることが観察された。
論文 参考訳(メタデータ) (2021-06-01T21:05:52Z) - Learning from Noisy Similar and Dissimilar Data [84.76686918337134]
ノイズSとDラベル付きデータから分類器を学習する方法を示す。
また、このような相互監督データからの学習と、通常のクラスラベルデータからの学習との間に重要な関連性を示す。
論文 参考訳(メタデータ) (2020-02-03T19:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。