論文の概要: The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI
- arxiv url: http://arxiv.org/abs/2310.16787v3
- Date: Sat, 4 Nov 2023 19:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:01:55.701713
- Title: The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI
- Title(参考訳): Data Provenance Initiative: AIにおけるデータセットライセンスと属性の大規模監査
- Authors: Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien
Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara,
Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu,
Luis Villa, Sandy Pentland, Sara Hooker
- Abstract要約: 法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
- 参考スコア(独自算出の注目度): 41.32981860191232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The race to train language models on vast, diverse, and inconsistently
documented datasets has raised pressing concerns about the legal and ethical
risks for practitioners. To remedy these practices threatening data
transparency and understanding, we convene a multi-disciplinary effort between
legal and machine learning experts to systematically audit and trace 1800+ text
datasets. We develop tools and standards to trace the lineage of these
datasets, from their source, creators, series of license conditions,
properties, and subsequent use. Our landscape analysis highlights the sharp
divides in composition and focus of commercially open vs closed datasets, with
closed datasets monopolizing important categories: lower resource languages,
more creative tasks, richer topic variety, newer and more synthetic training
data. This points to a deepening divide in the types of data that are made
available under different license conditions, and heightened implications for
jurisdictional legal interpretations of copyright and fair use. We also observe
frequent miscategorization of licenses on widely used dataset hosting sites,
with license omission of 70%+ and error rates of 50%+. This points to a crisis
in misattribution and informed use of the most popular datasets driving many
recent breakthroughs. As a contribution to ongoing improvements in dataset
transparency and responsible use, we release our entire audit, with an
interactive UI, the Data Provenance Explorer, which allows practitioners to
trace and filter on data provenance for the most popular open source finetuning
data collections: www.dataprovenance.org.
- Abstract(参考訳): 膨大な、多様な、一貫性のないデータセットで言語モデルをトレーニングするレースは、実践者に対する法的および倫理的リスクに対する懸念を高めている。
データの透明性と理解を脅かすこれらのプラクティスを是正するために、法律と機械学習の専門家の間で、1800以上のテキストデータセットを体系的に監査し追跡するための、複数の学際的な取り組みを招集する。
私たちは、ソース、クリエーター、一連のライセンス条件、プロパティ、以降の使用から、これらのデータセットの系統をトレースするためのツールと標準を開発します。
私たちのランドスケープ分析は、より低いリソース言語、より創造的なタスク、よりリッチなトピックの多様性、より新しい、より合成的なトレーニングデータといった重要なカテゴリを独占するクローズドデータセットによる、商業的にオープンなデータセットとクローズドデータセットの組成と焦点の急激な分割を強調しています。
このことは、異なるライセンス条件下で利用できるデータの種類がより深く分断され、著作権と公正使用に関する司法的法的解釈への含意が高まったことを示している。
また、広く使われているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である、ライセンスの頻繁な誤分類も観察する。
これは、多くの最近のブレークスルーを駆動する最も人気のあるデータセットの誤帰と情報利用の危機を示している。
データセットの透明性と責任ある使用に関する継続的な改善への貢献として、私たちは、最もポピュラーなオープンソースの微調整データコレクションであるwww.dataprovenance.orgのために、データプロヴァンスをトレースしてフィルタできるインタラクティブuiであるdata provenance explorerを使って、監査全体をリリースします。
関連論文リスト
- A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
論文 参考訳(メタデータ) (2022-10-25T14:33:17Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Customs Import Declaration Datasets [12.306592823750385]
我々は、税関行政におけるドメインエキスパートと多様なドメインの研究者の協力を促進するために、インポート宣言データセットを導入する。
データセットには、54,000の人工的に生成された取引と22のキー属性が含まれている。
我々は、より高度なアルゴリズムが詐欺を検知しやすくすることを実証的に示している。
論文 参考訳(メタデータ) (2022-08-04T06:20:20Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。