Fugu-MT 論文翻訳(概要): The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI

論文の概要: The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI

arxiv url: http://arxiv.org/abs/2310.16787v2
Date: Mon, 30 Oct 2023 16:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:00:54.543393
Title: The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI
Title（参考訳）: Data Provenance Initiative: AIにおけるデータセットライセンスと属性の大規模監査
Authors: Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Deb Roy, Sara Hooker
Abstract要約: 法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。広く使用されているデータセットホスティングサイトでは、ライセンスが72%以上、エラー率が50%以上である。
参考スコア（独自算出の注目度）: 47.17994155510226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The race to train language models on vast, diverse, and inconsistently documented datasets has raised pressing concerns about the legal and ethical risks for practitioners. To remedy these practices threatening data transparency and understanding, we convene a multi-disciplinary effort between legal and machine learning experts to systematically audit and trace 1800+ text datasets. We develop tools and standards to trace the lineage of these datasets, from their source, creators, series of license conditions, properties, and subsequent use. Our landscape analysis highlights the sharp divides in composition and focus of commercially open vs closed datasets, with closed datasets monopolizing important categories: lower resource languages, more creative tasks, richer topic variety, newer and more synthetic training data. This points to a deepening divide in the types of data that are made available under different license conditions, and heightened implications for jurisdictional legal interpretations of copyright and fair use. We also observe frequent miscategorization of licenses on widely used dataset hosting sites, with license omission of 72%+ and error rates of 50%+. This points to a crisis in misattribution and informed use of the most popular datasets driving many recent breakthroughs. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire audit, with an interactive UI, the Data Provenance Explorer, which allows practitioners to trace and filter on data provenance for the most popular open source finetuning data collections: www.dataprovenance.org.
Abstract（参考訳）: 膨大な、多様な、一貫性のないデータセットで言語モデルをトレーニングするレースは、実践者に対する法的および倫理的リスクに対する懸念を高めている。データの透明性と理解を脅かすこれらのプラクティスを是正するために、法律と機械学習の専門家の間で、1800以上のテキストデータセットを体系的に監査し追跡するための、複数の学際的な取り組みを招集する。私たちは、ソース、クリエーター、一連のライセンス条件、プロパティ、以降の使用から、これらのデータセットの系統をトレースするためのツールと標準を開発します。私たちのランドスケープ分析は、より低いリソース言語、より創造的なタスク、よりリッチなトピックの多様性、より新しい、より合成的なトレーニングデータといった重要なカテゴリを独占するクローズドデータセットによる、商業的にオープンなデータセットとクローズドデータセットの組成と焦点の急激な分割を強調しています。このことは、異なるライセンス条件下で利用できるデータの種類がより深く分断され、著作権と公正使用に関する司法的法的解釈への含意が高まったことを示している。また,広く使用されているデータセットホスティングサイトでは,ライセンスの欠落が72%以上,エラーレートが50%以上,ライセンスの誤分類が頻発している。これは、多くの最近のブレークスルーを駆動する最も人気のあるデータセットの誤帰と情報利用の危機を示している。データセットの透明性と責任ある使用に関する継続的な改善への貢献として、私たちは、最もポピュラーなオープンソースの微調整データコレクションであるwww.dataprovenance.orgのために、データプロヴァンスをトレースしてフィルタできるインタラクティブuiであるdata provenance explorerを使って、監査全体をリリースします。

関連論文リスト

Eye-Tracking-while-Reading: A Living Survey of Datasets with Open Library Support [5.162965495020878]
視線追跡時コーパスは多くの異なる分野において貴重な資源である。既存のデータセットに関して、透明性と明確性の向上を目指しています。
論文参考訳（メタデータ） (2026-02-23T08:40:50Z)
Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets [2.707154152696381]
我々は、重要な透明性、説明責任、セキュリティ原則によるデータセットコンプライアンスを評価するために設計されたフレームワークである、コンプライアンスレーティングスキーム(CRS)を紹介します。このフレームワークを実装するために,データプロファイランス技術を中心に構築された,オープンソースのPythonライブラリもリリースしています。
論文参考訳（メタデータ） (2025-12-25T20:13:46Z)
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Leave No TRACE: Black-box Detection of Copyrighted Dataset Usage in Large Language Models via Watermarking [51.74368870268278]
我々は,大規模な言語モデルにおける著作権付きデータセット使用量を完全にブラックボックスで検出するフレームワークであるTRACEを提案する。 textttTRACEは、プライベートキーでガイドされた歪みのない透かしでデータセットを書き換える。さまざまなデータセットとモデルファミリにわたって、TRACEは一貫して重要な検出を実現している。
論文参考訳（メタデータ） (2025-10-03T12:53:02Z)
Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文参考訳（メタデータ） (2025-06-18T08:46:59Z)
Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文参考訳（メタデータ） (2024-12-19T01:30:19Z)
A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-31T23:55:41Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Unsupervised Anomaly Detection for Auditing Data and Impact of Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。データセットは浅層および深層学習法に基づいて評価される。
論文参考訳（メタデータ） (2022-10-25T14:33:17Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Customs Import Declaration Datasets [12.306592823750385]
我々は、税関行政におけるドメインエキスパートと多様なドメインの研究者の協力を促進するために、インポート宣言データセットを導入する。データセットには、54,000の人工的に生成された取引と22のキー属性が含まれている。我々は、より高度なアルゴリズムが詐欺を検知しやすくすることを実証的に示している。
論文参考訳（メタデータ） (2022-08-04T06:20:20Z)
Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文参考訳（メタデータ） (2022-02-03T17:25:46Z)
Deep Transfer Learning for Multi-source Entity Linkage via Domain Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。 AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文参考訳（メタデータ） (2021-10-27T15:20:41Z)
The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-18T20:13:51Z)
Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文参考訳（メタデータ） (2021-10-05T11:47:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。