論文の概要: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- arxiv url: http://arxiv.org/abs/2409.04824v3
- Date: Tue, 11 Mar 2025 20:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 19:00:48.688325
- Title: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- Title(参考訳): OSSライセンスの大規模識別 - World of Codeを使用した包括的データセット
- Authors: Mahmoud Jahanshahi, David Reid, Adam McDaniel, Audris Mockus,
- Abstract要約: 本研究では,オープンソースソフトウェア(OSS)ライセンスの再利用と包括的データセットを提案する。
OSSプロジェクトで550万の異なるライセンスブロブを発見し、特定しました。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
- 参考スコア(独自算出の注目度): 4.954816514146113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of open source software (OSS) and different types of reuse has made it incredibly difficult to perform an essential legal and compliance task of accurate license identification within the software supply chain. This study presents a reusable and comprehensive dataset of OSS licenses, created using the World of Code (WoC) infrastructure. By scanning all files containing "license" in their file paths, and applying the approximate matching via winnowing algorithm to identify the most similar license from the SPDX list, we found and identified 5.5 million distinct license blobs in OSS projects. The dataset includes a detailed project-to-license (P2L) map with commit timestamps, enabling dynamic analysis of license adoption and changes over time. To verify the accuracy of the dataset we use stratified sampling and manual review, achieving a final accuracy of 92.08%, with precision of 87.14%, recall of 95.45%, and an F1 score of 91.11%. This dataset is intended to support a range of research and practical tasks, including the detection of license noncompliance, the investigations of license changes, study of licensing trends, and the development of compliance tools. The dataset is open, providing a valuable resource for developers, researchers, and legal professionals in the OSS community.
- Abstract(参考訳): オープンソースソフトウェア(OSS)の普及とさまざまなタイプの再利用により、ソフトウェアサプライチェーン内で正確なライセンス識別を行う上で、不可欠な法的およびコンプライアンスタスクを実行することは極めて困難になっています。
本研究では、World of Code(WoC)インフラストラクチャを使用して作成したOSSライセンスの再利用可能な、包括的なデータセットを提案する。
ファイルパスに「ライセンス」を含むすべてのファイルをスキャンし、Winnowingアルゴリズムによる近似マッチングを適用してSPDXリストから最もよく似たライセンスを識別することにより、OSSプロジェクトで550万の異なるライセンスブロブを発見し、同定した。
データセットにはコミットタイムスタンプを備えた詳細なプロジェクト・ツー・ライセンス(P2L)マップが含まれている。
データセットの精度を検証するために、階層化されたサンプリングと手動によるレビューを使用し、最終的な精度は92.08%、精度は87.14%、リコールは95.45%、F1スコアは91.11%である。
このデータセットは、ライセンス非準拠の検出、ライセンス変更の調査、ライセンスの動向の調査、コンプライアンスツールの開発など、さまざまな研究および実践的なタスクをサポートすることを意図している。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
関連論文リスト
- OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。
データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。
我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文 参考訳(メタデータ) (2025-03-04T16:57:53Z) - LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance [27.595354325922436]
本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル (FM) である LicenseGPT を紹介する。
既存の法的なFMを評価し,最高の性能モデルが43.75%の予測契約(PA)を達成していることを確認した。
LicenseGPTは、解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
論文 参考訳(メタデータ) (2024-12-30T19:04:13Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するためのベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets [13.134215997081157]
我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。
我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
論文 参考訳(メタデータ) (2024-03-22T14:23:21Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - LiSum: Open Source Software License Summarization with Multi-Task
Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文 参考訳(メタデータ) (2023-09-10T16:43:51Z) - The Software Heritage License Dataset (2022 Edition) [0.0]
データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。
このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
論文 参考訳(メタデータ) (2023-08-22T08:01:07Z) - LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。
総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文 参考訳(メタデータ) (2023-06-26T13:16:09Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - FAT Forensics: A Python Toolbox for Implementing and Deploying Fairness,
Accountability and Transparency Algorithms in Predictive Systems [69.24490096929709]
FAT ForensicsというオープンソースのPythonパッケージを開発しました。
予測アルゴリズムの重要な公平性、説明可能性、透明性を検査することができる。
私たちのツールボックスは、予測パイプラインのすべての要素を評価することができます。
論文 参考訳(メタデータ) (2022-09-08T13:25:02Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。