論文の概要: The Software Heritage Open Science Ecosystem
- arxiv url: http://arxiv.org/abs/2310.10295v1
- Date: Mon, 16 Oct 2023 11:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:57:46.303019
- Title: The Software Heritage Open Science Ecosystem
- Title(参考訳): ソフトウェア遺産オープンサイエンスのエコシステム
- Authors: Roberto Di Cosmo (UPCit\'e), Stefano Zacchiroli (IP Paris, LTCI)
- Abstract要約: ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software Heritage is the largest public archive of software source code and
associated development history, as captured by modern version control systems.
As of July 2023, it has archived more than 16 billion unique source code files
coming from more than 250 million collaborative development projects. In this
chapter, we describe the Software Heritage ecosystem, focusing on research and
open science use cases.On the one hand, Software Heritage supports empirical
research on software by materializing in a single Merkle direct acyclic graph
the development history of public code. This giant graph of source code
artifacts (files, directories, and commits) can be used-and has been used-to
study repository forks, open source contributors, vulnerability propagation,
software provenance tracking, source code indexing, and more.On the other hand,
Software Heritage ensures availability and guarantees integrity of the source
code of software artifacts used in any field that relies on software to conduct
experiments, contributing to making research reproducible. The source code used
in scientific experiments can be archived-e.g., via integration with
open-access repositories-referenced using persistent identifiers that allow
downstream integrity checks and linked to/from other scholarly digital
artifacts.
- Abstract(参考訳): ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブであり、現代のバージョン管理システムによって収集されている。
2023年7月現在、同社は2億5000万以上の共同開発プロジェクトから160億以上のユニークなソースコードファイルをアーカイブしている。
本章では,研究とオープンサイエンスのユースケースに焦点を当てたソフトウェアヘリテージのエコシステムについて述べる。一方,ソフトウェアヘリテージは,単一のmerkle直接非循環グラフで公開コードの開発履歴を具体化することにより,ソフトウェアに関する実証的な研究を支援する。
この巨大なソースコードアーティファクト(ファイル、ディレクトリ、コミット)のグラフは、リポジトリフォーク、オープンソースコントリビュータ、脆弱性の伝播、ソフトウェアプロファイランスの追跡、ソースコードインデクシングなどの研究に使われてきました。一方、ソフトウェア遺産は、実験を行うためにソフトウェアに依存するあらゆる分野のソフトウェアアーティファクトのソースコードの可用性と整合性を確保し、研究の再現に寄与します。
科学実験で使用されるソースコードは、例えば、下流の整合性チェックと他の学術的なデジタルアーティファクトとのリンクを可能にする永続的な識別子を使用して、オープンアクセスレポジトリ参照との統合を通じてアーカイブすることができる。
関連論文リスト
- Measuring Software Innovation with Open Source Software Development Data [0.0]
本稿では,GitHub上のオープンソースソフトウェア(OSS)開発活動に基づいた,ソフトウェア革新の新たな尺度を紹介する。
リリース後2年間に28,000のユニークなパッケージから$sim$200,000のユニークなリリースで、依存関係の成長とリリースの複雑さを調べます。
OSSパッケージのメジャーリリースは、科学出版物、特許、標準を補完するイノベーションの単位として数えられる。
論文 参考訳(メタデータ) (2024-11-07T19:11:32Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - An Overview and Catalogue of Dependency Challenges in Open Source Software Package Registries [52.23798016734889]
この記事では、OSSパッケージやライブラリに依存する依存関係関連の課題のカタログを提供する。
このカタログは、これらの課題を理解し、定量化し、克服するために行われた経験的研究に関する科学文献に基づいている。
論文 参考訳(メタデータ) (2024-09-27T16:20:20Z) - Knowledge Islands: Visualizing Developers Knowledge Concentration [0.0]
Knowledge Islandsは、最先端の知識モデルを使用して、ソフトウェアリポジトリ内の知識の集中を可視化するツールである。
GitHubプロジェクトを分析し、知識がどこに集中しているかを判断し、プロジェクトの健全性を維持するための手段を実装することができる。
論文 参考訳(メタデータ) (2024-08-16T13:32:49Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Source Code Archiving to the Rescue of Reproducible Deployment [2.53740603524637]
我々は、GuixとユニバーサルソースコードアーカイブであるSoftware Heritageを接続する作業について述べ、Guixは、安定的なアーカイブによって支援された最初のフリーソフトウェア配布およびツールとなる。
次に,5年以上にわたって収集されたデータによるパッケージソースコードのアーカイブカバレッジについて報告し,残る課題について論じる。
論文 参考訳(メタデータ) (2024-05-24T13:00:28Z) - Dataset: Copy-based Reuse in Open Source Software [5.917654223291073]
オープンソースソフトウェアでは、ソースコードやその他のプロジェクトで利用可能なリソースは、しばしば寛容なライセンス制限を受ける人なら誰でも閲覧または再利用することができる。
このデータセットは、OSS全体の再利用をほぼすべてのOSSでキャプチャするコピーアクティビティデータを提供することで、OSS全体のコピーベースの再利用の研究を促進することを目指している。
論文 参考訳(メタデータ) (2023-12-14T22:08:09Z) - Collaborative, Code-Proximal Dynamic Software Visualization within Code
Editors [55.57032418885258]
本稿では,コードエディタに組み込むソフトウェアビジュアライゼーション手法の設計と実装について紹介する。
私たちのコントリビューションは、ソフトウェアシステムの実行時の動作の動的解析を使用するという点で、関連する作業と異なります。
私たちの視覚化アプローチは、一般的なリモートペアプログラミングツールを強化し、共有コード都市を利用することで協調的に使用できます。
論文 参考訳(メタデータ) (2023-08-30T06:35:40Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z) - Nine Best Practices for Research Software Registries and Repositories: A
Concise Guide [63.52960372153386]
私たちは、マネージャが個々のレジストリやリポジトリを管理するスコープ、プラクティス、ルールを定義するのに役立つ9つのベストプラクティスのセットを提示します。
これらのベストプラクティスは、2011年と2012年にForce11ソフトウェア実装ワーキンググループのタスクフォースによって招集された、既存のリソースの作成者の経験から抽出された。
論文 参考訳(メタデータ) (2020-12-24T05:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。