論文の概要: Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face
- arxiv url: http://arxiv.org/abs/2401.13822v1
- Date: Wed, 24 Jan 2024 21:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:24:52.906369
- Title: Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face
- Title(参考訳): AIでデータセットドキュメンテーションをナビゲートする - ハッギングフェイス上のデータセットカードの大規模分析
- Authors: Xinyu Yang, Weixin Liang, James Zou
- Abstract要約: 私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
- 参考スコア(独自算出の注目度): 46.60562029098208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in machine learning are closely tied to the creation of datasets.
While data documentation is widely recognized as essential to the reliability,
reproducibility, and transparency of ML, we lack a systematic empirical
understanding of current dataset documentation practices. To shed light on this
question, here we take Hugging Face -- one of the largest platforms for sharing
and collaborating on ML models and datasets -- as a prominent case study. By
analyzing all 7,433 dataset documentation on Hugging Face, our investigation
provides an overview of the Hugging Face dataset ecosystem and insights into
dataset documentation practices, yielding 5 main findings: (1) The dataset card
completion rate shows marked heterogeneity correlated with dataset popularity.
(2) A granular examination of each section within the dataset card reveals that
the practitioners seem to prioritize Dataset Description and Dataset Structure
sections, while the Considerations for Using the Data section receives the
lowest proportion of content. (3) By analyzing the subsections within each
section and utilizing topic modeling to identify key topics, we uncover what is
discussed in each section, and underscore significant themes encompassing both
technical and social impacts, as well as limitations within the Considerations
for Using the Data section. (4) Our findings also highlight the need for
improved accessibility and reproducibility of datasets in the Usage sections.
(5) In addition, our human annotation evaluation emphasizes the pivotal role of
comprehensive dataset content in shaping individuals' perceptions of a dataset
card's overall quality. Overall, our study offers a unique perspective on
analyzing dataset documentation through large-scale data science analysis and
underlines the need for more thorough dataset documentation in machine learning
research.
- Abstract(参考訳): 機械学習の進歩はデータセットの作成と密接に結びついている。
データドキュメンテーションは、MLの信頼性、再現性、透明性に不可欠なものとして広く認識されていますが、現在のデータセットドキュメンテーションプラクティスに関する体系的な理解は欠如しています。
ここでは、注目すべきケーススタディとして、MLモデルとデータセットを共有し、コラボレーションするための最大のプラットフォームであるHugging Faceを取り上げます。
ハグ面に関する7,433件のデータセットのドキュメントを分析した結果,ハグ面データセットのエコシステムの概要と,データセットのドキュメント実践に関する洞察が得られた。
2)データセットカード内の各セクションの精査では,データ記述とデータセット構造を優先する傾向がみられ,データセクションの使用に関する考察は,コンテンツの割合が低いことが判明した。
3)各セクションのセクションを分析し,トピックモデリングを用いて重要トピックを特定することにより,各セクションで議論されているものを明らかにするとともに,技術的および社会的影響を包含する重要なテーマと,データセクションの使用に関する考慮事項の制限を概説する。
(4)本研究は,利用区間におけるデータセットのアクセシビリティと再現性の向上の必要性を浮き彫りにする。
さらに,人間のアノテーション評価は,データセットの全体的な品質に対する個人の認識を形作る上で,包括的データセットコンテンツの重要性を強調した。
全体として、我々の研究は、大規模なデータサイエンス分析を通じてデータセットのドキュメントを分析し、機械学習研究におけるより詳細なデータセットのドキュメントの必要性を浮き彫りにしている。
関連論文リスト
- Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - On the Cross-Dataset Generalization of Machine Learning for Network
Intrusion Detection [50.38534263407915]
ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。
多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。
本研究では,機械学習に基づくNIDSの一般化に関する包括的分析を行う。
論文 参考訳(メタデータ) (2024-02-15T14:39:58Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation [8.447159556925182]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
論文 参考訳(メタデータ) (2022-06-09T23:31:17Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Whose Ground Truth? Accounting for Individual and Collective Identities
Underlying Dataset Annotation [7.480972965984986]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
私たちは、アノテーションが誰であるか、そしてアノテーションの生きた経験がアノテーションにどのように影響するかという2つのレイヤに沿って、この分野の課題をレイアウトしました。
MLデータパイプラインのさまざまな段階において、データセット開発者に対して、具体的なレコメンデーションと考慮事項を提示した。
論文 参考訳(メタデータ) (2021-12-08T19:56:56Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。