論文の概要: From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
- arxiv url: http://arxiv.org/abs/2509.09873v1
- Date: Thu, 11 Sep 2025 21:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.935266
- Title: From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
- Title(参考訳): Hugging FaceからGitHubへ - オープンソースAIエコシステムにおけるライセンス制限の追跡
- Authors: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan,
- Abstract要約: オープンソースのAIエコシステムにおける隠れたライセンス紛争は、重大な法的および倫理的リスクをもたらす。
我々はHugging Face上でデータセットとモデルのライセンスのエンドツーエンド監査を初めて提示する。
- 参考スコア(独自算出の注目度): 12.206378714907075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hidden license conflicts in the open-source AI ecosystem pose serious legal and ethical risks, exposing organizations to potential litigation and users to undisclosed risk. However, the field lacks a data-driven understanding of how frequently these conflicts occur, where they originate, and which communities are most affected. We present the first end-to-end audit of licenses for datasets and models on Hugging Face, as well as their downstream integration into open-source software applications, covering 364 thousand datasets, 1.6 million models, and 140 thousand GitHub projects. Our empirical analysis reveals systemic non-compliance in which 35.5% of model-to-application transitions eliminate restrictive license clauses by relicensing under permissive terms. In addition, we prototype an extensible rule engine that encodes almost 200 SPDX and model-specific clauses for detecting license conflicts, which can solve 86.4% of license conflicts in software applications. To support future research, we release our dataset and the prototype engine. Our study highlights license compliance as a critical governance challenge in open-source AI and provides both the data and tools necessary to enable automated, AI-aware compliance at scale.
- Abstract(参考訳): オープンソースAIエコシステムにおける隠れたライセンス紛争は、重大な法的および倫理的リスクを生じさせ、組織を訴訟の可能性にさらし、ユーザは未公表のリスクに晒す。
しかし、この分野は、これらの衝突の発生頻度、発生地、最も影響を受けているコミュニティについて、データ駆動による理解を欠いている。
Hugging Face上でのデータセットとモデルのライセンスに関する初のエンドツーエンド監査と,364万のデータセット,1.6万のモデル,14万のGitHubプロジェクトを対象とした,オープンソースソフトウェアアプリケーションへのダウンストリーム統合について紹介する。
我々の経験的分析は、35.5%のモデルからアプリケーションへの遷移が、寛容な条件下での検閲によって制限されたライセンス条項を排除した体系的非コンプライアンスを明らかにしている。
さらに、約200のSPDXとモデル固有の条項を符号化してライセンス競合を検出する拡張可能なルールエンジンを試作し、ソフトウェアアプリケーションにおけるライセンス競合の86.4%を解決する。
今後の研究を支援するため、データセットとプロトタイプエンジンをリリースする。
我々の研究は、ライセンスコンプライアンスをオープンソースAIにおける重要なガバナンス課題として強調し、大規模に自動化されたAI対応のコンプライアンスを実現するために必要なデータとツールの両方を提供する。
関連論文リスト
- The Case for Contextual Copyleft: Licensing Open Source Training Data and Generative AI [1.2776470520481564]
この記事では、トレーニングデータから生成された生成AIモデルへのコピーレフト要求を拡張する、新しいライセンスメカニズムである、Contextual Copyleft AI(CCAI)ライセンスを紹介します。
CCAIライセンスは、開発者コントロールの強化、オープンソースAI開発のインセンティブ化、オープン洗浄プラクティスの緩和など、大きなアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-07-17T01:42:51Z) - Open Source, Hidden Costs: A Systematic Literature Review on OSS License Management [10.002122950923967]
サードパーティのソフトウェアコンポーネントを統合することは、現代のソフトウェア開発において一般的なプラクティスです。
理解の欠如は論争を引き起こし、重大な法的および運用上の課題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-07-03T14:02:15Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - New Tools are Needed for Tracking Adherence to AI Model Behavioral Use Clauses [21.783728820999933]
悪質で悪意のあるAIの使用に関する懸念は、テクノロジーのリスクを制限するメカニズムの設計につながった。
その結果、行動利用条項と許容可能な利用政策を持つライセンスが急増した。
本稿では、これらのライセンスの採用と遵守を追跡するツールが次の自然なステップであると位置づける。
論文 参考訳(メタデータ) (2025-05-28T12:26:55Z) - Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。
データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。
我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文 参考訳(メタデータ) (2025-03-04T16:57:53Z) - Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。
OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。
これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文 参考訳(メタデータ) (2024-12-19T14:44:41Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - On the Standardization of Behavioral Use Clauses and Their Adoption for
Responsible Licensing of AI [27.748532981456464]
2018年、AI資産をリリースするためのフレームワークを提供するために、行動利用条項付きのライセンスが提案された。
2023年末時点で、4万のソフトウェアとモデルリポジトリの順序で、責任あるAIライセンスが採用されている。
論文 参考訳(メタデータ) (2024-02-07T22:29:42Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。