論文の概要: Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI
- arxiv url: http://arxiv.org/abs/2204.01075v1
- Date: Sun, 3 Apr 2022 13:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 07:51:49.014916
- Title: Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI
- Title(参考訳): データカード:責任あるaiのための故意で透明なデータセットドキュメント
- Authors: Mahima Pushkarna (1), Andrew Zaldivar (1), Oddur Kjartansson (1) ((1)
Google Research)
- Abstract要約: 我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As research and industry moves towards large-scale models capable of numerous
downstream tasks, the complexity of understanding multi-modal datasets that
give nuance to models rapidly increases. A clear and thorough understanding of
a dataset's origins, development, intent, ethical considerations and evolution
becomes a necessary step for the responsible and informed deployment of models,
especially those in people-facing contexts and high-risk domains. However, the
burden of this understanding often falls on the intelligibility, conciseness,
and comprehensiveness of the documentation. It requires consistency and
comparability across the documentation of all datasets involved, and as such
documentation must be treated as a user-centric product in and of itself. In
this paper, we propose Data Cards for fostering transparent, purposeful and
human-centered documentation of datasets within the practical contexts of
industry and research. Data Cards are structured summaries of essential facts
about various aspects of ML datasets needed by stakeholders across a dataset's
lifecycle for responsible AI development. These summaries provide explanations
of processes and rationales that shape the data and consequently the models,
such as upstream sources, data collection and annotation methods; training and
evaluation methods, intended use; or decisions affecting model performance. We
also present frameworks that ground Data Cards in real-world utility and
human-centricity. Using two case studies, we report on desirable
characteristics that support adoption across domains, organizational
structures, and audience groups. Finally, we present lessons learned from
deploying over 20 Data Cards.
- Abstract(参考訳): 研究と産業が多数の下流タスクが可能な大規模モデルへと進むにつれ、モデルにニュアンスを与えるマルチモーダルデータセットを理解する複雑さが急速に増大する。
データセットの起源、開発、意図、倫理的考察、進化を明確かつ徹底的に理解することは、モデルの責任とインフォームドな展開、特に人向きのコンテキストやリスクの高いドメインにおいて必要なステップとなる。
しかし、この理解の重荷は、しばしば文書の知性、簡潔さ、包括性にかかっている。
関連するすべてのデータセットのドキュメンテーションに一貫性と互換性が必要であり、そのようなドキュメンテーションはユーザ中心の製品として扱う必要がある。
本稿では,産業や研究の現場において,データセットの透明性,目的性,人間中心のドキュメントを育成するためのデータカードを提案する。
データカードは、AI開発に責任を持つデータセットのライフサイクルを通じて、ステークホルダが必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
これらの要約は、データを形成するプロセスと合理性の説明を提供し、それゆえ、上流ソース、データ収集およびアノテーションメソッド、トレーニングおよび評価方法、意図的な使用、またはモデルパフォーマンスに影響する決定を提供する。
また、実世界のユーティリティと人間中心性でData Cardを基盤とするフレームワークも提示します。
2つのケーススタディを用いて,ドメイン,組織構造,オーディエンスグループにまたがる採用を支援する望ましい特性について報告する。
最後に,20枚以上のデータカードのデプロイから学んだ教訓を紹介する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation [8.447159556925182]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
論文 参考訳(メタデータ) (2022-06-09T23:31:17Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure [9.825840279544465]
機械学習を強化するデータセットは、しばしば使われ、共有され、再使用される。
本稿では、意思決定と説明責任をサポートするデータセット開発透明性のための厳格なフレームワークを紹介する。
論文 参考訳(メタデータ) (2020-10-23T01:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。