論文の概要: Wild SBOMs: a Large-scale Dataset of Software Bills of Materials from Public Code
- arxiv url: http://arxiv.org/abs/2503.15021v1
- Date: Wed, 19 Mar 2025 09:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:51.511704
- Title: Wild SBOMs: a Large-scale Dataset of Software Bills of Materials from Public Code
- Title(参考訳): Wild SBOMs: 公開コードによるソフトウェア請求書の大規模データセット
- Authors: Luıs Soeiro, Thomas Robert, Stefano Zacchiroli,
- Abstract要約: 利用可能なFree and Open Source Software (FOSS)コンポーネントを再利用することで、生産性が向上する。
これらの問題に対処する1つのアプローチは、Software Bill of Materials (SBOM)を使用することである。
野生で生成されたSBOMファイルに基づくSBOMの実践に関する大規模な研究は、いまだに不十分である。
- 参考スコア(独自算出の注目度): 4.1920378271058425
- License:
- Abstract: Developers gain productivity by reusing readily available Free and Open Source Software (FOSS) components. Such practices also bring some difficulties, such as managing licensing, components and related security. One approach to handle those difficulties is to use Software Bill of Materials (SBOMs). While there have been studies on the readiness of practitioners to embrace SBOMs and on the SBOM tools ecosystem, a large scale study on SBOM practices based on SBOM files produced in the wild is still lacking. A starting point for such a study is a large dataset of SBOM files found in the wild. We introduce such a dataset, consisting of over 78 thousand unique SBOM files, deduplicated from those found in over 94 million repositories. We include metadata that contains the standard and format used, quality score generated by the tool sbomqs, number of revisions, filenames and provenance information. Finally, we give suggestions and examples of research that could bring new insights on assessing and improving SBOM real practices.
- Abstract(参考訳): 利用可能なFree and Open Source Software (FOSS)コンポーネントを再利用することで、生産性が向上する。
このようなプラクティスは、ライセンス管理やコンポーネント、関連するセキュリティなど、いくつかの困難をもたらします。
これらの問題に対処する1つのアプローチは、Software Bill of Materials (SBOM)を使用することである。
SBOMを取り入れる実践者やSBOMツールエコシステムについての研究は行われているが、野生で作られたSBOMファイルに基づくSBOM実践に関する大規模な研究はいまだに不足している。
このような研究の出発点は、野生で見つかったSBOMファイルの大規模なデータセットである。
9900万以上のリポジトリにあるSBOMファイルから切り離された78万以上のユニークなSBOMファイルからなるデータセットを紹介します。
使用する標準とフォーマット、ツールのsbomqsで生成された品質スコア、リビジョンの数、ファイル名、前例情報を含むメタデータを含めます。
最後に、SBOMの実践の評価と改善に関する新たな洞察をもたらすことができる研究の提案と例を挙げる。
関連論文リスト
- SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Software Bills of Materials in Maven Central [9.699225997570384]
開発者がSoftware Bills of Materials(SBOM)を配布する方法については、ほとんど知識がない。
Maven CentralからSBOMを抽出し、開発者がSBOMをアーティファクトとともに公開する範囲を評価する。
本稿では,SBOMの出版に関する新たな知見とともに,SBOMの収集方法について述べる。
論文 参考訳(メタデータ) (2025-01-23T16:56:40Z) - Supply Chain Insecurity: The Lack of Integrity Protection in SBOM Solutions [0.0]
SBOM(Software Bill of Materials)は、ソフトウェアサプライチェーンのセキュリティを確保するための最重要事項である。
ビデン大統領が発した大統領令により、SBOMの採用は米国内で義務化されている。
本研究は,SBOMの完全性に関する詳細な,体系的な研究である。
論文 参考訳(メタデータ) (2024-12-06T15:52:12Z) - MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。
私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。
MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T15:46:17Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - SBOM Generation Tools in the Python Ecosystem: an In-Detail Analysis [2.828503885204035]
我々はCycloneDX標準を用いて4つの人気のあるSBOM生成ツールを分析する。
依存関係のバージョン、メタデータファイル、リモート依存関係、オプションの依存関係に関する問題を強調します。
PyPIエコシステムにおけるメタデータの標準の欠如による体系的な問題を特定する。
論文 参考訳(メタデータ) (2024-09-02T12:48:10Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。