Fugu-MT 論文翻訳(概要): OSS License Identification at Scale: A Comprehensive Dataset Using World of Code

論文の概要: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code

arxiv url: http://arxiv.org/abs/2409.04824v1
Date: Sat, 7 Sep 2024 13:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 20:31:31.273888
Title: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
Title（参考訳）: OSSライセンスの大規模識別 - World of Codeを使用した包括的データセット
Authors: Mahmoud Jahanshahi, David Reid, Adam McDaniel, Audris Mockus,
Abstract要約: 我々は、徹底的なアプローチを採用し、それらのファイルパスに'ライセンス'を含むすべてのファイルをスキャンし、堅牢なテキストマッチングにWinnowingアルゴリズムを適用した。提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
参考スコア（独自算出の注目度）: 4.954816514146113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of open source software (OSS) has led to a complex landscape of licensing practices, making accurate license identification crucial for legal and compliance purposes. This study presents a comprehensive analysis of OSS licenses using the World of Code (WoC) infrastructure. We employ an exhaustive approach, scanning all files containing ``license'' in their filepath, and apply the winnowing algorithm for robust text matching. Our method identifies and matches over 5.5 million distinct license blobs across millions of OSS projects, creating a detailed project-to-license (P2L) map. We verify the accuracy of our approach through stratified sampling and manual review, achieving a final accuracy of 92.08%, with precision of 87.14%, recall of 95.45%, and an F1 score of 91.11%. This work enhances the understanding of OSS licensing practices and provides a valuable resource for developers, researchers, and legal professionals. Future work will expand the scope of license detection to include code files and references to licenses in project documentation.
Abstract（参考訳）: オープンソースソフトウェア(OSS)の普及により、ライセンス慣行の複雑な状況が生まれ、法的およびコンプライアンス目的において正確なライセンス識別が不可欠になっている。本研究では,World of Code (WoC) インフラストラクチャを用いたOSSライセンスの包括的解析を行う。我々は、ファイルパスに '`license'' を含む全ファイルをスキャンし、ロバストなテキストマッチングにWinnowingアルゴリズムを適用し、徹底的なアプローチを採用する。提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。我々は、階層化サンプリングと手動によるレビューによってアプローチの精度を検証し、最終的な精度は92.08%、精度は87.14%、リコールは95.45%、F1スコアは91.11%である。この作業はOSSライセンスプラクティスの理解を深め、開発者、研究者、法律専門家に貴重なリソースを提供する。今後の作業は、ライセンス検出の範囲を広げて、プロジェクトドキュメントにコードファイルとライセンスへの参照を含める予定である。

関連論文リスト

Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文参考訳（メタデータ） (2025-10-22T05:18:28Z)
A first look at License Variants in the PyPI Ecosystem [22.01881122680886]
我々は,PyPIエコシステムにおけるライセンス変種に関する実証的研究を行った。差分に基づく手法と大規模言語モデルを活用した,効率的なライセンス変種解析のための新しいアプローチであるLV-を導入する。 LV-は計算コストを30%削減しながら0.936の精度を達成し、LV-Compatは0.98の既存の方法よりも5.2倍互換性のないパッケージを識別する。
論文参考訳（メタデータ） (2025-07-19T12:41:33Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文参考訳（メタデータ） (2025-03-04T16:57:53Z)
LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance [27.595354325922436]
本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル (FM) である LicenseGPT を紹介する。既存の法的なFMを評価し,最高の性能モデルが43.75%の予測契約(PA)を達成していることを確認した。 LicenseGPTは、解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
論文参考訳（メタデータ） (2024-12-30T19:04:13Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文参考訳（メタデータ） (2024-08-08T01:31:38Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するためのベンチマークである。 COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。 CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文参考訳（メタデータ） (2024-05-09T07:15:19Z)
An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets [13.134215997081157]
我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
論文参考訳（メタデータ） (2024-03-22T14:23:21Z)
Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文参考訳（メタデータ） (2024-01-19T11:27:34Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
LiSum: Open Source Software License Summarization with Multi-Task Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文参考訳（メタデータ） (2023-09-10T16:43:51Z)
The Software Heritage License Dataset (2022 Edition) [0.0]
データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
論文参考訳（メタデータ） (2023-08-22T08:01:07Z)
LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文参考訳（メタデータ） (2023-06-26T13:16:09Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
FAT Forensics: A Python Toolbox for Implementing and Deploying Fairness, Accountability and Transparency Algorithms in Predictive Systems [69.24490096929709]
FAT ForensicsというオープンソースのPythonパッケージを開発しました。予測アルゴリズムの重要な公平性、説明可能性、透明性を検査することができる。私たちのツールボックスは、予測パイプラインのすべての要素を評価することができます。
論文参考訳（メタデータ） (2022-09-08T13:25:02Z)
Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文参考訳（メタデータ） (2021-12-09T18:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。