論文の概要: The Problem of Zombie Datasets:A Framework For Deprecating Datasets
- arxiv url: http://arxiv.org/abs/2111.04424v1
- Date: Mon, 18 Oct 2021 20:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-14 15:47:03.814544
- Title: The Problem of Zombie Datasets:A Framework For Deprecating Datasets
- Title(参考訳): Zombieデータセットの問題:データセットの非推奨化フレームワーク
- Authors: Frances Corry, Hamsini Sridharan, Alexandra Sasha Luccioni, Mike
Ananny, Jason Schultz, Kate Crawford
- Abstract要約: 我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.878249096379804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What happens when a machine learning dataset is deprecated for legal,
ethical, or technical reasons, but continues to be widely used? In this paper,
we examine the public afterlives of several prominent deprecated or redacted
datasets, including ImageNet, 80 Million Tiny Images, MS-Celeb-1M, Duke MTMC,
Brainwash, and HRT Transgender, in order to inform a framework for more
consistent, ethical, and accountable dataset deprecation. Building on prior
research, we find that there is a lack of consistency, transparency, and
centralized sourcing of information on the deprecation of datasets, and as
such, these datasets and their derivatives continue to be cited in papers and
circulate online. These datasets that never die -- which we term "zombie
datasets" -- continue to inform the design of production-level systems, causing
technical, legal, and ethical challenges; in so doing, they risk perpetuating
the harms that prompted their supposed withdrawal, including concerns around
bias, discrimination, and privacy. Based on this analysis, we propose a Dataset
Deprecation Framework that includes considerations of risk, mitigation of
impact, appeal mechanisms, timeline, post-deprecation protocol, and publication
checks that can be adapted and implemented by the machine learning community.
Drawing on work on datasheets and checklists, we further offer two sample
dataset deprecation sheets and propose a centralized repository that tracks
which datasets have been deprecated and could be incorporated into the
publication protocols of venues like NeurIPS.
- Abstract(参考訳): マシンラーニングデータセットが法的、倫理的、技術的理由から廃止されるが、広く使用されている場合はどうなりますか?
本稿では,ImageNet,8000万Tiny Images,MS-Celeb-1M,Duke MTMC,Brainwash,HRT Transgenderなどの著名な非推奨データセットの公開後処理について検討し,より一貫性のある倫理的かつ説明可能なデータセットの非推奨化の枠組みについて述べる。
先行研究に基づいて、データセットの非推奨に関する情報の一貫性、透明性、集中的なソーシングが欠如していることが分かり、これらのデータセットとそのデリバティブが論文に引用され、オンラインに流通し続けている。
死なないデータセット — いわゆる“zombieデータセット” – は、技術的、法的、倫理的な課題を引き起こして、製品レベルのシステムの設計に引き続き通知します。
この分析に基づいて,機械学習コミュニティが適用・実装可能な,リスクの考慮,影響の緩和,アピール機構,タイムライン,ポスト推奨プロトコル,パブリッシングチェックを含むデータセット非推奨フレームワークを提案する。
データシートとチェックリストに関する作業に基づいて、さらに2つのサンプルデータセットの非推奨シートを提供し、どのデータセットが非推奨になったかを追跡し、NeurIPSのような会場の公開プロトコルに組み込むことができる集中型リポジトリを提案する。
関連論文リスト
- A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。
その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。
データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文 参考訳(メタデータ) (2024-08-31T12:56:38Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - Mitigating dataset harms requires stewardship: Lessons from 1000 papers [8.469320512479456]
約1000枚の論文を分析し,3つの影響力ある顔と人物の認識データセットについて検討した。
デリバティブデータセットとモデルの作成、より広範な技術と社会の変化、ライセンスの明確さの欠如、データセット管理プラクティスは、幅広い倫理的懸念をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-08-06T02:52:36Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。