論文の概要: The Problem of Zombie Datasets:A Framework For Deprecating Datasets
- arxiv url: http://arxiv.org/abs/2111.04424v1
- Date: Mon, 18 Oct 2021 20:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-14 15:47:03.814544
- Title: The Problem of Zombie Datasets:A Framework For Deprecating Datasets
- Title(参考訳): Zombieデータセットの問題:データセットの非推奨化フレームワーク
- Authors: Frances Corry, Hamsini Sridharan, Alexandra Sasha Luccioni, Mike
Ananny, Jason Schultz, Kate Crawford
- Abstract要約: 我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.878249096379804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What happens when a machine learning dataset is deprecated for legal,
ethical, or technical reasons, but continues to be widely used? In this paper,
we examine the public afterlives of several prominent deprecated or redacted
datasets, including ImageNet, 80 Million Tiny Images, MS-Celeb-1M, Duke MTMC,
Brainwash, and HRT Transgender, in order to inform a framework for more
consistent, ethical, and accountable dataset deprecation. Building on prior
research, we find that there is a lack of consistency, transparency, and
centralized sourcing of information on the deprecation of datasets, and as
such, these datasets and their derivatives continue to be cited in papers and
circulate online. These datasets that never die -- which we term "zombie
datasets" -- continue to inform the design of production-level systems, causing
technical, legal, and ethical challenges; in so doing, they risk perpetuating
the harms that prompted their supposed withdrawal, including concerns around
bias, discrimination, and privacy. Based on this analysis, we propose a Dataset
Deprecation Framework that includes considerations of risk, mitigation of
impact, appeal mechanisms, timeline, post-deprecation protocol, and publication
checks that can be adapted and implemented by the machine learning community.
Drawing on work on datasheets and checklists, we further offer two sample
dataset deprecation sheets and propose a centralized repository that tracks
which datasets have been deprecated and could be incorporated into the
publication protocols of venues like NeurIPS.
- Abstract(参考訳): マシンラーニングデータセットが法的、倫理的、技術的理由から廃止されるが、広く使用されている場合はどうなりますか?
本稿では,ImageNet,8000万Tiny Images,MS-Celeb-1M,Duke MTMC,Brainwash,HRT Transgenderなどの著名な非推奨データセットの公開後処理について検討し,より一貫性のある倫理的かつ説明可能なデータセットの非推奨化の枠組みについて述べる。
先行研究に基づいて、データセットの非推奨に関する情報の一貫性、透明性、集中的なソーシングが欠如していることが分かり、これらのデータセットとそのデリバティブが論文に引用され、オンラインに流通し続けている。
死なないデータセット — いわゆる“zombieデータセット” – は、技術的、法的、倫理的な課題を引き起こして、製品レベルのシステムの設計に引き続き通知します。
この分析に基づいて,機械学習コミュニティが適用・実装可能な,リスクの考慮,影響の緩和,アピール機構,タイムライン,ポスト推奨プロトコル,パブリッシングチェックを含むデータセット非推奨フレームワークを提案する。
データシートとチェックリストに関する作業に基づいて、さらに2つのサンプルデータセットの非推奨シートを提供し、どのデータセットが非推奨になったかを追跡し、NeurIPSのような会場の公開プロトコルに組み込むことができる集中型リポジトリを提案する。
関連論文リスト
- The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Building Inspection Toolkit: Unified Evaluation and Strong Baselines for
Damage Recognition [0.0]
損傷認識の分野において、関連するオープンソースデータセットを含むデータハブを簡易に使用するためのビルディングインスペクションツールキット -- bikit -- を紹介します。
データセットには評価分割と事前定義されたメトリクスが組み込まれており、特定のタスクとそのデータ分布に適合する。
この領域の研究者のモチベーションを高めるために、私たちはリーダーボードとモデルの重みをコミュニティと共有する可能性も提供します。
論文 参考訳(メタデータ) (2022-02-14T20:05:59Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - Mitigating dataset harms requires stewardship: Lessons from 1000 papers [8.469320512479456]
約1000枚の論文を分析し,3つの影響力ある顔と人物の認識データセットについて検討した。
デリバティブデータセットとモデルの作成、より広範な技術と社会の変化、ライセンスの明確さの欠如、データセット管理プラクティスは、幅広い倫理的懸念をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-08-06T02:52:36Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。