Fugu-MT 論文翻訳(概要): The Problem of Zombie Datasets:A Framework For Deprecating Datasets

論文の概要: The Problem of Zombie Datasets:A Framework For Deprecating Datasets

arxiv url: http://arxiv.org/abs/2111.04424v1
Date: Mon, 18 Oct 2021 20:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-14 15:47:03.814544
Title: The Problem of Zombie Datasets:A Framework For Deprecating Datasets
Title（参考訳）: Zombieデータセットの問題:データセットの非推奨化フレームワーク
Authors: Frances Corry, Hamsini Sridharan, Alexandra Sasha Luccioni, Mike Ananny, Jason Schultz, Kate Crawford
Abstract要約: 我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
参考スコア（独自算出の注目度）: 55.878249096379804
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: What happens when a machine learning dataset is deprecated for legal, ethical, or technical reasons, but continues to be widely used? In this paper, we examine the public afterlives of several prominent deprecated or redacted datasets, including ImageNet, 80 Million Tiny Images, MS-Celeb-1M, Duke MTMC, Brainwash, and HRT Transgender, in order to inform a framework for more consistent, ethical, and accountable dataset deprecation. Building on prior research, we find that there is a lack of consistency, transparency, and centralized sourcing of information on the deprecation of datasets, and as such, these datasets and their derivatives continue to be cited in papers and circulate online. These datasets that never die -- which we term "zombie datasets" -- continue to inform the design of production-level systems, causing technical, legal, and ethical challenges; in so doing, they risk perpetuating the harms that prompted their supposed withdrawal, including concerns around bias, discrimination, and privacy. Based on this analysis, we propose a Dataset Deprecation Framework that includes considerations of risk, mitigation of impact, appeal mechanisms, timeline, post-deprecation protocol, and publication checks that can be adapted and implemented by the machine learning community. Drawing on work on datasheets and checklists, we further offer two sample dataset deprecation sheets and propose a centralized repository that tracks which datasets have been deprecated and could be incorporated into the publication protocols of venues like NeurIPS.
Abstract（参考訳）: マシンラーニングデータセットが法的、倫理的、技術的理由から廃止されるが、広く使用されている場合はどうなりますか? 本稿では,ImageNet,8000万Tiny Images,MS-Celeb-1M,Duke MTMC,Brainwash,HRT Transgenderなどの著名な非推奨データセットの公開後処理について検討し,より一貫性のある倫理的かつ説明可能なデータセットの非推奨化の枠組みについて述べる。先行研究に基づいて、データセットの非推奨に関する情報の一貫性、透明性、集中的なソーシングが欠如していることが分かり、これらのデータセットとそのデリバティブが論文に引用され、オンラインに流通し続けている。死なないデータセット — いわゆる“zombieデータセット” – は、技術的、法的、倫理的な課題を引き起こして、製品レベルのシステムの設計に引き続き通知します。この分析に基づいて,機械学習コミュニティが適用・実装可能な,リスクの考慮,影響の緩和,アピール機構,タイムライン,ポスト推奨プロトコル,パブリッシングチェックを含むデータセット非推奨フレームワークを提案する。データシートとチェックリストに関する作業に基づいて、さらに2つのサンプルデータセットの非推奨シートを提供し、どのデータセットが非推奨になったかを追跡し、NeurIPSのような会場の公開プロトコルに組み込むことができる集中型リポジトリを提案する。

関連論文リスト

LAND: A Longitudinal Analysis of Neuromorphic Datasets [47.84658158364453]
このレビューでは、既存のニューロモルフィックデータセットをキャプチャし、423以上のデータセットをカバーしている。これらのデータセットの分析は、そのサイズ、標準化の欠如、実際のデータにアクセスする上での困難さを示している。より重要な懸念は、シミュレーションまたはビデオ・ツー・イベントの手法によって生成される合成データセットの台頭である。
論文参考訳（メタデータ） (2026-02-17T19:46:33Z)
BlackCATT: Black-box Collusion Aware Traitor Tracing in Federated Learning [51.251962154210474]
フェデレートラーニング: BlackCATT におけるブラックボックストレーサトレースのための一般的なコラシオン耐性埋め込み法を提案する。実験により,異なるアーキテクチャやデータセットにまたがる提案手法の有効性が確認された。メインタスクの更新不整合に苦しむモデルに対して,提案したBlackCATT+FRには機能正規化が組み込まれている。
論文参考訳（メタデータ） (2026-02-12T16:26:57Z)
Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets [2.707154152696381]
我々は、重要な透明性、説明責任、セキュリティ原則によるデータセットコンプライアンスを評価するために設計されたフレームワークである、コンプライアンスレーティングスキーム(CRS)を紹介します。このフレームワークを実装するために,データプロファイランス技術を中心に構築された,オープンソースのPythonライブラリもリリースしています。
論文参考訳（メタデータ） (2025-12-25T20:13:46Z)
A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-31T23:55:41Z)
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文参考訳（メタデータ） (2024-08-31T12:56:38Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。 CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文参考訳（メタデータ） (2024-01-04T11:14:01Z)
The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文参考訳（メタデータ） (2023-10-25T17:20:26Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。既存のパブリックMSMOデータセットには多くの制限がある。 textbfMMSumデータセットを精巧にキュレートした。
論文参考訳（メタデータ） (2023-06-07T07:43:11Z)
Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文参考訳（メタデータ） (2021-10-05T11:47:27Z)
Mitigating dataset harms requires stewardship: Lessons from 1000 papers [8.469320512479456]
約1000枚の論文を分析し,3つの影響力ある顔と人物の認識データセットについて検討した。デリバティブデータセットとモデルの作成、より広範な技術と社会の変化、ライセンスの明確さの欠如、データセット管理プラクティスは、幅広い倫理的懸念をもたらす可能性がある。
論文参考訳（メタデータ） (2021-08-06T02:52:36Z)
Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文参考訳（メタデータ） (2020-08-13T08:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。