論文の概要: How do data owners say no? A case study of data consent mechanisms in web-scraped vision-language AI training datasets
- arxiv url: http://arxiv.org/abs/2511.08637v1
- Date: Thu, 13 Nov 2025 01:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.161815
- Title: How do data owners say no? A case study of data consent mechanisms in web-scraped vision-language AI training datasets
- Title(参考訳): データ所有者はなぜノーと言うのか? Webスクラッドな視覚言語AIトレーニングデータセットにおけるデータ同意機構のケーススタディ
- Authors: Chung Peng Lee, Rachel Hong, Harry Jiang, Aster Plotnik, William Agnew, Jamie Morgenstern,
- Abstract要約: 我々は、AIのスクレーピングとトレーニングに対するデータ所有者の同意に関する情報を明らかにし、それがDataCompでどのように表現されているかを研究することを目指している。
われわれは,少なくとも122万件のサンプルがCommonPoolに著作権通知の兆候を示すと見積もっている。
我々の総合的な方法と発見は、データ所有者がデータ同意を伝達するために様々なチャンネルに依存していることを示している。
- 参考スコア(独自算出の注目度): 2.790280665168348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The internet has become the main source of data to train modern text-to-image or vision-language models, yet it is increasingly unclear whether web-scale data collection practices for training AI systems adequately respect data owners' wishes. Ignoring the owner's indication of consent around data usage not only raises ethical concerns but also has recently been elevated into lawsuits around copyright infringement cases. In this work, we aim to reveal information about data owners' consent to AI scraping and training, and study how it's expressed in DataComp, a popular dataset of 12.8 billion text-image pairs. We examine both the sample-level information, including the copyright notice, watermarking, and metadata, and the web-domain-level information, such as a site's Terms of Service (ToS) and Robots Exclusion Protocol. We estimate at least 122M of samples exhibit some indication of copyright notice in CommonPool, and find that 60\% of the samples in the top 50 domains come from websites with ToS that prohibit scraping. Furthermore, we estimate 9-13\% with 95\% confidence interval of samples from CommonPool to contain watermarks, where existing watermark detection methods fail to capture them in high fidelity. Our holistic methods and findings show that data owners rely on various channels to convey data consent, of which current AI data collection pipelines do not entirely respect. These findings highlight the limitations of the current dataset curation/release practice and the need for a unified data consent framework taking AI purposes into consideration.
- Abstract(参考訳): インターネットは、現代のテキスト・ツー・イメージまたはビジョン言語モデルをトレーニングする主要なデータソースとなっているが、AIシステムのトレーニングのためのWebスケールのデータ収集プラクティスが、データ所有者の要望を適切に尊重するかどうか、ますます不明になっている。
データ使用に関する所有者の同意の表示を無視することは、倫理的懸念を提起するだけでなく、最近著作権侵害事件に関する訴訟にも高まっている。
この研究は、AIのスクラップとトレーニングに対するデータ所有者の同意に関する情報を明らかにすることを目的としており、一般的な128億のテキストイメージペアのデータセットであるDataCompでどのように表現されているかを研究する。
本稿では,著作権通知,透かし,メタデータなどのサンプルレベル情報と,サイトのサービス規約(ToS)やロボット排他プロトコル(Robots Exclusion Protocol)などのWebドメインレベル情報について検討する。
われわれは、少なくとも1億12200万のサンプルがCommonPoolの著作権表示を示すと見積もっており、上位50ドメインのサンプルの60%は、スクラップを禁止しているToSのウェブサイトから来ている。
さらに,コモンプールから採取した試料の95%の信頼区間を有する9~13\%を,既存の透かし検出法では高い忠実度で捕捉できない透かしを含むように推定した。
我々の総合的な方法と発見は、データ所有者がデータ同意を伝達するために様々なチャンネルに依存していることを示している。
これらの調査結果は、現在のデータセットキュレーション/リリースプラクティスの制限と、AIの目的を考慮した統合データコンセンサスフレームワークの必要性を強調している。
関連論文リスト
- A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset [12.094673476388639]
Webスクラッピングされた機械学習データセットの法的プライバシーへの影響はどのようなものか?
一般的なトレーニングデータセットの実証的研究では,衛生的努力にもかかわらず個人識別可能な情報の存在が顕著であることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:40:05Z) - Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes [0.0]
競争力を維持するために、一部の機関は必然的に、または故意に、AIトレーニングのための不正なデータを含めるかもしれない。
我々は情報同位体の概念を導入し、不透明なAIシステム内のトレーニングデータの追跡においてそれらの特性を解明する。
本研究では,不正なデータ使用の証拠を同定し,提示するための情報同位体追跡手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T07:35:59Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - AI-based Re-identification of Behavioral Clickstream Data [0.0]
本論文は, 行動パターンに基づいて, 個人を純粋に同定する上で, 同様の手法が適用可能であることを実証する。
レコード間の振舞いパターンの単なる類似性は、識別された個人に振舞いデータを正しく属性付けるのに十分である。
また、私たちが導入したAIベースの再識別攻撃に対して回復力があることが示されています。
論文 参考訳(メタデータ) (2022-01-21T16:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。