論文の概要: Wild SBOMs: a Large-scale Dataset of Software Bills of Materials from Public Code
- arxiv url: http://arxiv.org/abs/2503.15021v1
- Date: Wed, 19 Mar 2025 09:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:29:57.540436
- Title: Wild SBOMs: a Large-scale Dataset of Software Bills of Materials from Public Code
- Title(参考訳): Wild SBOMs: 公開コードによるソフトウェア請求書の大規模データセット
- Authors: Luıs Soeiro, Thomas Robert, Stefano Zacchiroli,
- Abstract要約: 利用可能なFree and Open Source Software (FOSS)コンポーネントを再利用することで、生産性が向上する。
これらの問題に対処する1つのアプローチは、Software Bill of Materials (SBOM)を使用することである。
野生で生成されたSBOMファイルに基づくSBOMの実践に関する大規模な研究は、いまだに不十分である。
- 参考スコア(独自算出の注目度): 4.1920378271058425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers gain productivity by reusing readily available Free and Open Source Software (FOSS) components. Such practices also bring some difficulties, such as managing licensing, components and related security. One approach to handle those difficulties is to use Software Bill of Materials (SBOMs). While there have been studies on the readiness of practitioners to embrace SBOMs and on the SBOM tools ecosystem, a large scale study on SBOM practices based on SBOM files produced in the wild is still lacking. A starting point for such a study is a large dataset of SBOM files found in the wild. We introduce such a dataset, consisting of over 78 thousand unique SBOM files, deduplicated from those found in over 94 million repositories. We include metadata that contains the standard and format used, quality score generated by the tool sbomqs, number of revisions, filenames and provenance information. Finally, we give suggestions and examples of research that could bring new insights on assessing and improving SBOM real practices.
- Abstract(参考訳): 利用可能なFree and Open Source Software (FOSS)コンポーネントを再利用することで、生産性が向上する。
このようなプラクティスは、ライセンス管理やコンポーネント、関連するセキュリティなど、いくつかの困難をもたらします。
これらの問題に対処する1つのアプローチは、Software Bill of Materials (SBOM)を使用することである。
SBOMを取り入れる実践者やSBOMツールエコシステムについての研究は行われているが、野生で作られたSBOMファイルに基づくSBOM実践に関する大規模な研究はいまだに不足している。
このような研究の出発点は、野生で見つかったSBOMファイルの大規模なデータセットである。
9900万以上のリポジトリにあるSBOMファイルから切り離された78万以上のユニークなSBOMファイルからなるデータセットを紹介します。
使用する標準とフォーマット、ツールのsbomqsで生成された品質スコア、リビジョンの数、ファイル名、前例情報を含むメタデータを含めます。
最後に、SBOMの実践の評価と改善に関する新たな洞察をもたらすことができる研究の提案と例を挙げる。
関連論文リスト
- A Dataset of Software Bill of Materials for Evaluating SBOM Consumption Tools [6.081142345739704]
ソフトウェア・ビル・オブ・マテリアル(Software Bill of Materials, SBOM)は、ソフトウェアで使用されるコンポーネントの一覧である。
多くのツールは、SBOMを通じてソフトウェア依存の管理をサポートする。
この目的のために特別に設計されたデータセットは公開されていない。
実世界のJavaプロジェクトから生成されたSBOMのデータセットを示す。
論文 参考訳(メタデータ) (2025-04-09T13:35:02Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - Augmenting Software Bills of Materials with Software Vulnerability Description: A Preliminary Study on GitHub [8.727176816793179]
本稿では,40のオープンソースプロジェクトのSBOMに共通脆弱性と露出に関する情報を付加する予備研究の結果を報告する。
当社の強化されたSBOMは、プルリクエストを提出し、プロジェクトオーナーに調査への回答を求めることで評価されています。
ほとんどの場合、SBOMの更新を継続する必要があるため、拡張SBOMは直接受け入れられなかったが、受信したフィードバックは、提案されたSBOM拡張の有用性を示している。
論文 参考訳(メタデータ) (2025-03-18T08:04:22Z) - Leveraging Retrieval Augmented Generative LLMs For Automated Metadata Description Generation to Enhance Data Catalogs [1.1957520154275776]
データカタログは、さまざまなデータ資産の収集とアクセスのためのリポジトリとして機能する。
組織内の多くのデータカタログは、資産記述のようなメタデータが不十分なため、検索容易性が制限されている。
本稿では,メタデータ作成に関わる課題について考察し,既存のメタデータコンテンツを活用するという,独特なプロンプト・エンリッチメントの考え方を提案する。
論文 参考訳(メタデータ) (2025-03-12T02:33:33Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Software Bills of Materials in Maven Central [9.699225997570384]
開発者がSoftware Bills of Materials(SBOM)を配布する方法については、ほとんど知識がない。
Maven CentralからSBOMを抽出し、開発者がSBOMをアーティファクトとともに公開する範囲を評価する。
本稿では,SBOMの出版に関する新たな知見とともに,SBOMの収集方法について述べる。
論文 参考訳(メタデータ) (2025-01-23T16:56:40Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。
私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。
MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T15:46:17Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - SBOM Generation Tools in the Python Ecosystem: an In-Detail Analysis [2.828503885204035]
我々はCycloneDX標準を用いて4つの人気のあるSBOM生成ツールを分析する。
依存関係のバージョン、メタデータファイル、リモート依存関係、オプションの依存関係に関する問題を強調します。
PyPIエコシステムにおけるメタデータの標準の欠如による体系的な問題を特定する。
論文 参考訳(メタデータ) (2024-09-02T12:48:10Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。