論文の概要: The Software Heritage License Dataset (2022 Edition)
- arxiv url: http://arxiv.org/abs/2308.11258v1
- Date: Tue, 22 Aug 2023 08:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:07:05.507463
- Title: The Software Heritage License Dataset (2022 Edition)
- Title(参考訳): the software heritage license dataset (2022年版)
- Authors: Jes\'us M. Gonz\'alez-Barahona (URJC), Sergio Montes-Leon (URJC),
Gregorio Robles (URJC), Stefano Zacchiroli (IP Paris, LTCI)
- Abstract要約: データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。
このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: When software is released publicly, it is common to include with it
either the full text of the license or licenses under which it is published, or
a detailed reference to them. Therefore public licenses, including FOSS (free,
open source software) licenses, are usually publicly available in source code
repositories.Objective: To compile a dataset containing as many documents as
possible that contain the text of software licenses, or references to the
license terms. Once compiled, characterize the dataset so that it can be used
for further research, or practical purposes related to license analysis.Method:
Retrieve from Software Heritage-the largest publicly available archive of FOSS
source code-all versions of all files whose names are commonly used to convey
licensing terms. All retrieved documents will be characterized in various ways,
using automated and manual analyses.Results: The dataset consists of 6.9
million unique license files. Additional metadata about shipped license files
is also provided, making the dataset ready to use in various contexts,
including: file length measures, MIME type, SPDX license (detected using
ScanCode), and oldest appearance. The results of a manual analysis of 8102
documents is also included, providing a ground truth for further analysis. The
dataset is released as open data as an archive file containing all deduplicated
license files, plus several portable CSV files with metadata, referencing files
via cryptographic checksums.Conclusions: Thanks to the extensive coverage of
Software Heritage, the dataset presented in this paper covers a very large
fraction of all software licenses for public code. We have assembled a large
body of software licenses, characterized it quantitatively and qualitatively,
and validated that it is mostly composed of licensing information and includes
almost all known license texts. The dataset can be used to conduct empirical
studies on open source licensing, training of automated license classifiers,
natural language processing (NLP) analyses of legal texts, as well as
historical and phylogenetic studies on FOSS licensing. It can also be used in
practice to improve tools detecting licenses in source code.
- Abstract(参考訳): コンテキスト: ソフトウェアが一般公開されると、ライセンスの完全なテキストか、そのライセンスが公開されたライセンス、あるいはそれらに対する詳細な参照のいずれかに含めるのが一般的です。
したがって、foss(free, open source software)ライセンスを含む公開ライセンスは通常、ソースコードリポジトリで公開されている。objective: ソフトウェアライセンスのテキストやライセンス条項への参照を含む可能な限り多くのドキュメントを含むデータセットをコンパイルする。
一度コンパイルすると、データセットを特徴付けて、ライセンス分析に関するさらなる研究や実用的な目的に使用できるようにします。 方法: ソフトウェアヘリテージからの取得 fossソースコードの最大公開アーカイブ ライセンス条件の伝達に一般的に使用されるすべてのファイルのすべてのバージョン。
すべての検索されたドキュメントは、自動化および手動分析を使用して、さまざまな方法で特徴付けられる。
出荷されたライセンスファイルに関する追加メタデータも提供されており、ファイル長測定、MIMEタイプ、SPDXライセンス(ScanCodeで検出)、最も古い外観など、さまざまなコンテキストで使用可能なデータセットが提供されている。
8102の文書を手作業で分析した結果も含まれており、さらなる分析の根拠となっている。
このデータセットは、すべての重複したライセンスファイルを含むアーカイブファイルとしてオープンデータとしてリリースされ、メタデータを備えたいくつかのポータブルなCSVファイル、暗号化チェックサムによるファイル参照を含む。
私たちは大量のソフトウェアライセンスを組み立て、定量的かつ質的に特徴付けし、ほとんどがライセンス情報で構成され、ほぼすべての既知のライセンステキストを含んでいることを検証しました。
このデータセットは、オープンソースライセンスに関する実証的研究、自動ライセンス分類器の訓練、法律テキストの自然言語処理(NLP)分析、およびFOSSライセンスに関する歴史的および系統学的研究を行うために使用することができる。
実際に、ソースコードのライセンスを検出するツールを改善するために使用することもできる。
関連論文リスト
- OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [4.954816514146113]
我々は、徹底的なアプローチを採用し、それらのファイルパスに'ライセンス'を含むすべてのファイルをスキャンし、堅牢なテキストマッチングにWinnowingアルゴリズムを適用した。
提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
論文 参考訳(メタデータ) (2024-09-07T13:34:55Z) - An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets [13.134215997081157]
我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。
我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
論文 参考訳(メタデータ) (2024-03-22T14:23:21Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - LiSum: Open Source Software License Summarization with Multi-Task
Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文 参考訳(メタデータ) (2023-09-10T16:43:51Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。