論文の概要: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- arxiv url: http://arxiv.org/abs/2409.04824v1
- Date: Sat, 7 Sep 2024 13:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:31:31.273888
- Title: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
- Title(参考訳): OSSライセンスの大規模識別 - World of Codeを使用した包括的データセット
- Authors: Mahmoud Jahanshahi, David Reid, Adam McDaniel, Audris Mockus,
- Abstract要約: 我々は、徹底的なアプローチを採用し、それらのファイルパスに'ライセンス'を含むすべてのファイルをスキャンし、堅牢なテキストマッチングにWinnowingアルゴリズムを適用した。
提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
- 参考スコア(独自算出の注目度): 4.954816514146113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of open source software (OSS) has led to a complex landscape of licensing practices, making accurate license identification crucial for legal and compliance purposes. This study presents a comprehensive analysis of OSS licenses using the World of Code (WoC) infrastructure. We employ an exhaustive approach, scanning all files containing ``license'' in their filepath, and apply the winnowing algorithm for robust text matching. Our method identifies and matches over 5.5 million distinct license blobs across millions of OSS projects, creating a detailed project-to-license (P2L) map. We verify the accuracy of our approach through stratified sampling and manual review, achieving a final accuracy of 92.08%, with precision of 87.14%, recall of 95.45%, and an F1 score of 91.11%. This work enhances the understanding of OSS licensing practices and provides a valuable resource for developers, researchers, and legal professionals. Future work will expand the scope of license detection to include code files and references to licenses in project documentation.
- Abstract(参考訳): オープンソースソフトウェア(OSS)の普及により、ライセンス慣行の複雑な状況が生まれ、法的およびコンプライアンス目的において正確なライセンス識別が不可欠になっている。
本研究では,World of Code (WoC) インフラストラクチャを用いたOSSライセンスの包括的解析を行う。
我々は、ファイルパスに '`license'' を含む全ファイルをスキャンし、ロバストなテキストマッチングにWinnowingアルゴリズムを適用し、徹底的なアプローチを採用する。
提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
我々は、階層化サンプリングと手動によるレビューによってアプローチの精度を検証し、最終的な精度は92.08%、精度は87.14%、リコールは95.45%、F1スコアは91.11%である。
この作業はOSSライセンスプラクティスの理解を深め、開発者、研究者、法律専門家に貴重なリソースを提供する。
今後の作業は、ライセンス検出の範囲を広げて、プロジェクトドキュメントにコードファイルとライセンスへの参照を含める予定である。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets [13.134215997081157]
我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。
我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
論文 参考訳(メタデータ) (2024-03-22T14:23:21Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - LiSum: Open Source Software License Summarization with Multi-Task
Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文 参考訳(メタデータ) (2023-09-10T16:43:51Z) - The Software Heritage License Dataset (2022 Edition) [0.0]
データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。
このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
論文 参考訳(メタデータ) (2023-08-22T08:01:07Z) - LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。
総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文 参考訳(メタデータ) (2023-06-26T13:16:09Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - FAT Forensics: A Python Toolbox for Implementing and Deploying Fairness,
Accountability and Transparency Algorithms in Predictive Systems [69.24490096929709]
FAT ForensicsというオープンソースのPythonパッケージを開発しました。
予測アルゴリズムの重要な公平性、説明可能性、透明性を検査することができる。
私たちのツールボックスは、予測パイプラインのすべての要素を評価することができます。
論文 参考訳(メタデータ) (2022-09-08T13:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。