論文の概要: Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes
- arxiv url: http://arxiv.org/abs/2503.20800v1
- Date: Mon, 24 Mar 2025 07:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:46.913714
- Title: Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes
- Title(参考訳): 情報アイソトープを用いたAI生成コンテンツからの無許可トレーニングデータの検証
- Authors: Qi Tao, Yin Jinhua, Cai Dongqi, Xie Yueqi, Wang Huili, Hu Zhiyang, Yang Peiru, Nan Guoshun, Zhou Zhili, Wang Shangguang, Lyu Lingjuan, Huang Yongfeng, Lane Nicholas,
- Abstract要約: 競争力を維持するために、一部の機関は必然的に、または故意に、AIトレーニングのための不正なデータを含めるかもしれない。
我々は情報同位体の概念を導入し、不透明なAIシステム内のトレーニングデータの追跡においてそれらの特性を解明する。
本研究では,不正なデータ使用の証拠を同定し,提示するための情報同位体追跡手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In light of scaling laws, many AI institutions are intensifying efforts to construct advanced AIs on extensive collections of high-quality human data. However, in a rush to stay competitive, some institutions may inadvertently or even deliberately include unauthorized data (like privacy- or intellectual property-sensitive content) for AI training, which infringes on the rights of data owners. Compounding this issue, these advanced AI services are typically built on opaque cloud platforms, which restricts access to internal information during AI training and inference, leaving only the generated outputs available for forensics. Thus, despite the introduction of legal frameworks by various countries to safeguard data rights, uncovering evidence of data misuse in modern opaque AI applications remains a significant challenge. In this paper, inspired by the ability of isotopes to trace elements within chemical reactions, we introduce the concept of information isotopes and elucidate their properties in tracing training data within opaque AI systems. Furthermore, we propose an information isotope tracing method designed to identify and provide evidence of unauthorized data usage by detecting the presence of target information isotopes in AI generations. We conduct experiments on ten AI models (including GPT-4o, Claude-3.5, and DeepSeek) and four benchmark datasets in critical domains (medical data, copyrighted books, and news). Results show that our method can distinguish training datasets from non-training datasets with 99\% accuracy and significant evidence (p-value$<0.001$) by examining a data entry equivalent in length to a research paper. The findings show the potential of our work as an inclusive tool for empowering individuals, including those without expertise in AI, to safeguard their data rights in the rapidly evolving era of AI advancements and applications.
- Abstract(参考訳): 多くのAI機関は、法律のスケールを考慮し、高品質な人間のデータを収集する高度なAIを構築する努力を強化している。
しかし、競争力を維持するために、一部の機関は、データ所有者の権利を侵害するAIトレーニングのための不正なデータ(プライバシーや知的財産権に敏感なコンテンツなど)を不注意に、あるいは故意に含めるかもしれない。
これらの高度なAIサービスは、通常、不透明なクラウドプラットフォーム上に構築され、AIトレーニングと推論中に内部情報へのアクセスを制限する。
したがって、さまざまな国がデータ権利を保護するための法的枠組みを導入しているにもかかわらず、現代の不透明なAIアプリケーションでデータ誤用の証拠を明らかにすることは、依然として重大な課題である。
本稿では, 化学反応中の元素をトレースする同位体の能力に触発されて, 情報同位体の概念を導入し, 不透明なAIシステム内でのトレーニングデータのトレースにおいてそれらの特性を解明する。
さらに,AI世代における対象情報同位体の存在を検知し,不正なデータ使用の証拠を同定し,提示することを目的とした情報同位体追跡手法を提案する。
我々は、GPT-4o、Claude-3.5、DeepSeekを含む10のAIモデルと、クリティカルドメイン(医療データ、著作権付き書籍、ニュース)の4つのベンチマークデータセットの実験を行う。
その結果,学習データセットを99 %の精度と有意な証拠(p-value$<0.001$)を持つ非学習データセットと区別できることがわかった。
この発見は、AIの進歩と応用が急速に進化する時代に、AIの専門知識を持たない個人を含む個人にデータの権利を保護するための包括的ツールとしての私たちの仕事の可能性を示している。
関連論文リスト
- Unlearning Targeted Information via Single Layer Unlearning Gradient [15.374381635334897]
無許可のプライバシー関連計算は社会にとって重要な関心事である。
EUの一般保護規則には「忘れられる権利」が含まれている
本研究では,SLUG(Single Layer Unlearning Gradient)を提案する。
論文 参考訳(メタデータ) (2024-07-16T15:52:36Z) - AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI [0.8553254686016967]
ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
論文 参考訳(メタデータ) (2024-06-27T15:26:39Z) - Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
この調査では、ACM Digital Library、IEEE Xplore、Nature、Springer、Science Directなどのジャーナル、著名なAI専門家が発行するオンライン記事の140以上の論文を調査している。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。