論文の概要: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- arxiv url: http://arxiv.org/abs/2409.04824v3
- Date: Tue, 11 Mar 2025 20:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:37:12.730127
- Title: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- Title(参考訳): OSSライセンスの大規模識別 - World of Codeを使用した包括的データセット
- Authors: Mahmoud Jahanshahi, David Reid, Adam McDaniel, Audris Mockus,
- Abstract要約: 本研究では,オープンソースソフトウェア(OSS)ライセンスの再利用と包括的データセットを提案する。
OSSプロジェクトで550万の異なるライセンスブロブを発見し、特定しました。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
- 参考スコア(独自算出の注目度): 4.954816514146113
- License:
- Abstract: The proliferation of open source software (OSS) and different types of reuse has made it incredibly difficult to perform an essential legal and compliance task of accurate license identification within the software supply chain. This study presents a reusable and comprehensive dataset of OSS licenses, created using the World of Code (WoC) infrastructure. By scanning all files containing "license" in their file paths, and applying the approximate matching via winnowing algorithm to identify the most similar license from the SPDX list, we found and identified 5.5 million distinct license blobs in OSS projects. The dataset includes a detailed project-to-license (P2L) map with commit timestamps, enabling dynamic analysis of license adoption and changes over time. To verify the accuracy of the dataset we use stratified sampling and manual review, achieving a final accuracy of 92.08%, with precision of 87.14%, recall of 95.45%, and an F1 score of 91.11%. This dataset is intended to support a range of research and practical tasks, including the detection of license noncompliance, the investigations of license changes, study of licensing trends, and the development of compliance tools. The dataset is open, providing a valuable resource for developers, researchers, and legal professionals in the OSS community.
- Abstract(参考訳): オープンソースソフトウェア(OSS)の普及とさまざまなタイプの再利用により、ソフトウェアサプライチェーン内で正確なライセンス識別を行う上で、不可欠な法的およびコンプライアンスタスクを実行することは極めて困難になっています。
本研究では、World of Code(WoC)インフラストラクチャを使用して作成したOSSライセンスの再利用可能な、包括的なデータセットを提案する。
ファイルパスに「ライセンス」を含むすべてのファイルをスキャンし、Winnowingアルゴリズムによる近似マッチングを適用してSPDXリストから最もよく似たライセンスを識別することにより、OSSプロジェクトで550万の異なるライセンスブロブを発見し、同定した。
データセットにはコミットタイムスタンプを備えた詳細なプロジェクト・ツー・ライセンス(P2L)マップが含まれている。
データセットの精度を検証するために、階層化されたサンプリングと手動によるレビューを使用し、最終的な精度は92.08%、精度は87.14%、リコールは95.45%、F1スコアは91.11%である。
このデータセットは、ライセンス非準拠の検出、ライセンス変更の調査、ライセンスの動向の調査、コンプライアンスツールの開発など、さまざまな研究および実践的なタスクをサポートすることを意図している。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
関連論文リスト
- Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance [27.595354325922436]
本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル (FM) である LicenseGPT を紹介する。
既存の法的なFMを評価し,最高の性能モデルが43.75%の予測契約(PA)を達成していることを確認した。
LicenseGPTは、解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
論文 参考訳(メタデータ) (2024-12-30T19:04:13Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - LiSum: Open Source Software License Summarization with Multi-Task
Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文 参考訳(メタデータ) (2023-09-10T16:43:51Z) - The Software Heritage License Dataset (2022 Edition) [0.0]
データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。
このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
論文 参考訳(メタデータ) (2023-08-22T08:01:07Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。