論文の概要: Permissive-Washing in the Open AI Supply Chain: A Large-Scale Audit of License Integrity
- arxiv url: http://arxiv.org/abs/2602.08816v1
- Date: Mon, 09 Feb 2026 15:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.33619
- Title: Permissive-Washing in the Open AI Supply Chain: A Large-Scale Audit of License Integrity
- Title(参考訳): オープンAIサプライチェーンにおけるパーミッション・ウォッシング - ライセンス統合の大規模監査
- Authors: James Jewitt, Gopi Krishnan Rajbahadur, Hao Li, Bram Adams, Ahmed E. Hassan,
- Abstract要約: MIT、Apache-2.0、BSD-3-Clauseといった寛容なライセンスがオープンソースAIを支配している。
寛容な洗浄: AIアーティファクトを自由に使用可能なラベルにすること。
私たちは、Hugging FaceとGitHubで3,338のデータセット、6,664のモデル、28,516のアプリケーションにまたがる、124,278のデータセット$rightarrow$ model $rightarrow$アプリケーションサプライチェーンを監査します。
- 参考スコア(独自算出の注目度): 12.206378714907075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Permissive licenses like MIT, Apache-2.0, and BSD-3-Clause dominate open-source AI, signaling that artifacts like models, datasets, and code can be freely used, modified, and redistributed. However, these licenses carry mandatory requirements: include the full license text, provide a copyright notice, and preserve upstream attribution, that remain unverified at scale. Failure to meet these conditions can place reuse outside the scope of the license, effectively leaving AI artifacts under default copyright for those uses and exposing downstream users to litigation. We call this phenomenon ``permissive washing'': labeling AI artifacts as free to use, while omitting the legal documentation required to make that label actionable. To assess how widespread permissive washing is in the AI supply chain, we empirically audit 124,278 dataset $\rightarrow$ model $\rightarrow$ application supply chains, spanning 3,338 datasets, 6,664 models, and 28,516 applications across Hugging Face and GitHub. We find that an astonishing 96.5\% of datasets and 95.8\% of models lack the required license text, only 2.3\% of datasets and 3.2\% of models satisfy both license text and copyright requirements, and even when upstream artifacts provide complete licensing evidence, attribution rarely propagates downstream: only 27.59\% of models preserve compliant dataset notices and only 5.75\% of applications preserve compliant model notices (with just 6.38\% preserving any linked upstream notice). Practitioners cannot assume permissive labels confer the rights they claim: license files and notices, not metadata, are the source of legal truth. To support future research, we release our full audit dataset and reproducible pipeline.
- Abstract(参考訳): MIT、Apache-2.0、BSD-3-Clauseといった寛容なライセンスがオープンソースAIを支配しており、モデル、データセット、コードなどのアーティファクトが自由に使用、変更、再配布可能であることを示唆している。
しかしながら、これらのライセンスには必須要件がある: 完全なライセンステキスト、著作権通知の提供、上流への貢献の維持。
これらの条件を満たさないと、ライセンスの範囲外で再利用でき、AIアーティファクトをそれらの使用に対するデフォルトの著作権下に置き、下流のユーザを訴訟に晒すことができる。
私たちはこの現象を 'Permissive washing'' と呼び、AIアーティファクトを自由に使用できるようにラベル付けし、そのラベルを実行可能なものにするための法的文書を省略します。
AIサプライチェーンがどの程度広く浸透しているかを評価するため、Hugging FaceとGitHubにまたがる3,338のデータセット、6,664のモデル、28,516のアプリケーションを対象に、124,278のデータセット$\rightarrow$ model $\rightarrow$アプリケーションサプライチェーンを経験的に監査しました。
驚くべきことに、データセットの96.5.%と95.8.%のモデルには、ライセンスのテキストが不足しており、データセットの2.3.%と3.2.%のモデルにライセンスのテキストと著作権の要件が満たされていない。
許可されたファイルや通知は、メタデータではなく、法的真実の源である。
今後の研究をサポートするため、私たちは監査データセットと再現可能なパイプラインをリリースします。
関連論文リスト
- From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem [12.206378714907075]
オープンソースのAIエコシステムにおける隠れたライセンス紛争は、重大な法的および倫理的リスクをもたらす。
我々はHugging Face上でデータセットとモデルのライセンスのエンドツーエンド監査を初めて提示する。
論文 参考訳(メタデータ) (2025-09-11T21:46:20Z) - Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。
データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。
我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文 参考訳(メタデータ) (2025-03-04T16:57:53Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。