論文の概要: Do Not Trust Licenses You See -- Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing
- arxiv url: http://arxiv.org/abs/2503.02784v1
- Date: Tue, 04 Mar 2025 16:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:49.433436
- Title: Do Not Trust Licenses You See -- Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing
- Title(参考訳): 信頼しない - データセット準拠には大規模AI駆動のライフサイクルトレースが必要だ
- Authors: Jaekyeom Kim, Sungryull Sohn, Gerrard Jeongwon Jo, Jihoon Choi, Kyunghoon Bae, Hwayoung Lee, Yongmin Park, Honglak Lee,
- Abstract要約: 本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。
データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。
我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
- 参考スコア(独自算出の注目度): 45.6582862121583
- License:
- Abstract: This paper argues that a dataset's legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.
- Abstract(参考訳): 本稿では,データセットの法的リスクをライセンス条項だけで正確に評価することはできず,データセットの再配布の追跡とライフサイクルの完全化が不可欠である,と論じる。
しかし、このプロセスは、法律の専門家が手動で大規模に扱うには複雑すぎる。
データセットの出所の追跡、再配布権の検証、複数の段階にわたる進化する法的リスクの評価は、人間の能力を超える精度と効率のレベルを必要とする。
この課題に効果的に対処するには、データセットの再配布を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定するAIエージェントが必要である。
我々はNEXUSと呼ばれる自動データコンプライアンスシステムを開発し、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示す。
このアプローチによる17,429のユニークなエンティティと8,072のライセンス用語の大規模な法的分析は、再配布前のオリジナルのデータセットとそれらの再配布されたサブセットとの間の法的権利の相違を明らかにし、データライフサイクル認識のコンプライアンスの必要性を浮き彫りにしている。
例えば、2,852のデータセットのうち、商業的に実行可能な個々のライセンス条件のうち、合法的に商業化が許可されているのは605 (21%) である。
この作業は、透過的で合法的で責任あるデータセット管理を保証するために、データセットの再配布の全ライフサイクルを体系的に調査するフレームワークを提唱する、AIデータガバナンスの新しい標準を設定する。
関連論文リスト
- Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance [27.595354325922436]
本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル (FM) である LicenseGPT を紹介する。
既存の法的なFMを評価し,最高の性能モデルが43.75%の予測契約(PA)を達成していることを確認した。
LicenseGPTは、解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
論文 参考訳(メタデータ) (2024-12-30T19:04:13Z) - OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [4.954816514146113]
本研究では,オープンソースソフトウェア(OSS)ライセンスの再利用と包括的データセットを提案する。
OSSプロジェクトで550万の異なるライセンスブロブを発見し、特定しました。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
論文 参考訳(メタデータ) (2024-09-07T13:34:55Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Customs Import Declaration Datasets [12.306592823750385]
我々は、税関行政におけるドメインエキスパートと多様なドメインの研究者の協力を促進するために、インポート宣言データセットを導入する。
データセットには、54,000の人工的に生成された取引と22のキー属性が含まれている。
我々は、より高度なアルゴリズムが詐欺を検知しやすくすることを実証的に示している。
論文 参考訳(メタデータ) (2022-08-04T06:20:20Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice [62.44110411199835]
我々は機械学習法における文献に基づいて、データとシステム性能を結びつけるデータ解釈に基づく収集を制限するフレームワークを提案する。
我々は、性能曲線微分に基づくデータ最小化基準を定式化し、有効かつ解釈可能な分数法法技術を提供する。
論文 参考訳(メタデータ) (2021-07-16T19:59:01Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。