論文の概要: The Software Heritage Open Science Ecosystem
- arxiv url: http://arxiv.org/abs/2310.10295v1
- Date: Mon, 16 Oct 2023 11:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:57:46.303019
- Title: The Software Heritage Open Science Ecosystem
- Title(参考訳): ソフトウェア遺産オープンサイエンスのエコシステム
- Authors: Roberto Di Cosmo (UPCit\'e), Stefano Zacchiroli (IP Paris, LTCI)
- Abstract要約: ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software Heritage is the largest public archive of software source code and
associated development history, as captured by modern version control systems.
As of July 2023, it has archived more than 16 billion unique source code files
coming from more than 250 million collaborative development projects. In this
chapter, we describe the Software Heritage ecosystem, focusing on research and
open science use cases.On the one hand, Software Heritage supports empirical
research on software by materializing in a single Merkle direct acyclic graph
the development history of public code. This giant graph of source code
artifacts (files, directories, and commits) can be used-and has been used-to
study repository forks, open source contributors, vulnerability propagation,
software provenance tracking, source code indexing, and more.On the other hand,
Software Heritage ensures availability and guarantees integrity of the source
code of software artifacts used in any field that relies on software to conduct
experiments, contributing to making research reproducible. The source code used
in scientific experiments can be archived-e.g., via integration with
open-access repositories-referenced using persistent identifiers that allow
downstream integrity checks and linked to/from other scholarly digital
artifacts.
- Abstract(参考訳): ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブであり、現代のバージョン管理システムによって収集されている。
2023年7月現在、同社は2億5000万以上の共同開発プロジェクトから160億以上のユニークなソースコードファイルをアーカイブしている。
本章では,研究とオープンサイエンスのユースケースに焦点を当てたソフトウェアヘリテージのエコシステムについて述べる。一方,ソフトウェアヘリテージは,単一のmerkle直接非循環グラフで公開コードの開発履歴を具体化することにより,ソフトウェアに関する実証的な研究を支援する。
この巨大なソースコードアーティファクト(ファイル、ディレクトリ、コミット)のグラフは、リポジトリフォーク、オープンソースコントリビュータ、脆弱性の伝播、ソフトウェアプロファイランスの追跡、ソースコードインデクシングなどの研究に使われてきました。一方、ソフトウェア遺産は、実験を行うためにソフトウェアに依存するあらゆる分野のソフトウェアアーティファクトのソースコードの可用性と整合性を確保し、研究の再現に寄与します。
科学実験で使用されるソースコードは、例えば、下流の整合性チェックと他の学術的なデジタルアーティファクトとのリンクを可能にする永続的な識別子を使用して、オープンアクセスレポジトリ参照との統合を通じてアーカイブすることができる。
関連論文リスト
- RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - Dataset: Copy-based Reuse in Open Source Software [5.917654223291073]
オープンソースソフトウェアでは、ソースコードやその他のプロジェクトで利用可能なリソースは、しばしば寛容なライセンス制限を受ける人なら誰でも閲覧または再利用することができる。
このデータセットは、OSS全体の再利用をほぼすべてのOSSでキャプチャするコピーアクティビティデータを提供することで、OSS全体のコピーベースの再利用の研究を促進することを目指している。
論文 参考訳(メタデータ) (2023-12-14T22:08:09Z) - SciCat: A Curated Dataset of Scientific Software Repositories [4.77982299447395]
我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
論文 参考訳(メタデータ) (2023-12-11T13:46:33Z) - A^3-CodGen: A Repository-Level Code Generation Framework for Code Reuse
with Local-Aware, Global-Aware, and Third-Party-Library-Aware [13.850755485655435]
本稿では,A3-CodGenと呼ばれる新しいコード生成フレームワークを提案する。
コードリポジトリの代表的な情報として,現在のコードファイルからのローカルアウェア情報,他のコードファイルからのグローバルアウェア情報,サードパーティライブラリ情報という3つのカテゴリを識別する。
その結果、A3-CodGenフレームワークを採用することで、コードリポジトリ情報をLLMに抽出、ヒューズ、フィードし、より正確で、効率的で、再利用性の高いコードを生成します。
論文 参考訳(メタデータ) (2023-12-10T05:36:06Z) - Collaborative, Code-Proximal Dynamic Software Visualization within Code
Editors [55.57032418885258]
本稿では,コードエディタに組み込むソフトウェアビジュアライゼーション手法の設計と実装について紹介する。
私たちのコントリビューションは、ソフトウェアシステムの実行時の動作の動的解析を使用するという点で、関連する作業と異なります。
私たちの視覚化アプローチは、一般的なリモートペアプログラミングツールを強化し、共有コード都市を利用することで協調的に使用できます。
論文 参考訳(メタデータ) (2023-08-30T06:35:40Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z) - Underproduction: An Approach for Measuring Risk in Open Source Software [9.701036831490766]
「アンダープロダクション」は、ソフトウェアエンジニアリングの労働力の供給が、生産されたソフトウェアに依存している人々の要求と一致しないときに起こる。
本稿では、ソフトウェアにおける相対的アンダープロダクションを特定するための概念的フレームワークと、我々のフレームワークを包括的データセットに適用するための統計的手法を提案する。
論文 参考訳(メタデータ) (2021-02-27T23:18:21Z) - Nine Best Practices for Research Software Registries and Repositories: A
Concise Guide [63.52960372153386]
私たちは、マネージャが個々のレジストリやリポジトリを管理するスコープ、プラクティス、ルールを定義するのに役立つ9つのベストプラクティスのセットを提示します。
これらのベストプラクティスは、2011年と2012年にForce11ソフトウェア実装ワーキンググループのタスクフォースによって招集された、既存のリソースの作成者の経験から抽出された。
論文 参考訳(メタデータ) (2020-12-24T05:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。