論文の概要: Dataset: Copy-based Reuse in Open Source Software
- arxiv url: http://arxiv.org/abs/2312.09370v1
- Date: Thu, 14 Dec 2023 22:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:49:09.465401
- Title: Dataset: Copy-based Reuse in Open Source Software
- Title(参考訳): dataset: オープンソースソフトウェアにおけるコピーベースの再利用
- Authors: Mahmoud Jahanshahi, Audris Mockus
- Abstract要約: オープンソースソフトウェアでは、ソースコードやその他のプロジェクトで利用可能なリソースは、しばしば寛容なライセンス制限を受ける人なら誰でも閲覧または再利用することができる。
このデータセットは、OSS全体の再利用をほぼすべてのOSSでキャプチャするコピーアクティビティデータを提供することで、OSS全体のコピーベースの再利用の研究を促進することを目指している。
- 参考スコア(独自算出の注目度): 5.917654223291073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Open Source Software, the source code and any other resources available in
a project can be viewed or reused by anyone subject to often permissive
licensing restrictions. In contrast to some studies of dependency-based reuse
supported via package managers, no studies of OSS-wide copy-based reuse exist.
This dataset seeks to encourage the studies of OSS-wide copy-based reuse by
providing copying activity data that captures whole-file reuse in nearly all
OSS. To accomplish that, we develop approaches to detect copy-based reuse by
developing an efficient algorithm that exploits World of Code infrastructure: a
curated and cross referenced collection of nearly all open source repositories.
We expect this data to enable future research and tool development that support
such reuse and minimize associated risks.
- Abstract(参考訳): オープンソースソフトウェアでは、プロジェクトで利用可能なソースコードやその他のリソースは、しばしば許容されるライセンス制限の対象の誰でも閲覧または再利用することができる。
パッケージマネージャによる依存性ベースの再利用に関するいくつかの研究とは対照的に、OSS全体のコピーベースの再利用に関する研究は存在しない。
このデータセットは、OSS全体の再利用をほぼすべてのOSSでキャプチャするコピーアクティビティデータを提供することで、OSS全体のコピーベースの再利用の研究を促進する。
そこで我々は、World of Codeのインフラを利用する効率的なアルゴリズム、ほぼすべてのオープンソースリポジトリのキュレーションと相互参照によるコレクションを開発することで、コピーベースの再利用を検出するアプローチを開発した。
このデータによって、このような再利用を支援し、関連するリスクを最小限に抑える、将来の研究とツール開発が可能になります。
関連論文リスト
- An Overview and Catalogue of Dependency Challenges in Open Source Software Package Registries [52.23798016734889]
この記事では、OSSパッケージやライブラリに依存する依存関係関連の課題のカタログを提供する。
このカタログは、これらの課題を理解し、定量化し、克服するために行われた経験的研究に関する科学文献に基づいている。
論文 参考訳(メタデータ) (2024-09-27T16:20:20Z) - Beyond Dependencies: The Role of Copy-Based Reuse in Open Source Software Development [5.412781090113212]
オープンソースソフトウェアでは、依存関係を導入したり、リソース自体をコピーすることで、プロジェクトのリソースは再利用できる。
我々の目標は、将来の研究とツール開発が効率を高め、コピーベースの再利用のリスクを低減することである。
論文 参考訳(メタデータ) (2024-09-07T13:50:40Z) - OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [4.954816514146113]
我々は、徹底的なアプローチを採用し、それらのファイルパスに'ライセンス'を含むすべてのファイルをスキャンし、堅牢なテキストマッチングにWinnowingアルゴリズムを適用した。
提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
論文 参考訳(メタデータ) (2024-09-07T13:34:55Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Source Code Archiving to the Rescue of Reproducible Deployment [2.53740603524637]
我々は、GuixとユニバーサルソースコードアーカイブであるSoftware Heritageを接続する作業について述べ、Guixは、安定的なアーカイブによって支援された最初のフリーソフトウェア配布およびツールとなる。
次に,5年以上にわたって収集されたデータによるパッケージソースコードのアーカイブカバレッジについて報告し,残る課題について論じる。
論文 参考訳(メタデータ) (2024-05-24T13:00:28Z) - The Software Heritage Open Science Ecosystem [0.0]
ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
論文 参考訳(メタデータ) (2023-10-16T11:32:03Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Repro: An Open-Source Library for Improving the Reproducibility and
Usability of Publicly Available Research Code [74.28810048824519]
Reproは、研究コードのユーザビリティ向上を目的とした、オープンソースのライブラリである。
Dockerコンテナ内で研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。
論文 参考訳(メタデータ) (2022-04-29T01:54:54Z) - Defining the role of open source software in research reproducibility [0.0]
私はオープンソースソフトウェアの役割について新しい提案をしています。
私はコネクティビズムの観点からその成功の説明を求めている。
信頼を守り、会話を通じてコミュニティを常に構築している、と私は主張する。
論文 参考訳(メタデータ) (2022-04-26T19:52:47Z) - Nine Best Practices for Research Software Registries and Repositories: A
Concise Guide [63.52960372153386]
私たちは、マネージャが個々のレジストリやリポジトリを管理するスコープ、プラクティス、ルールを定義するのに役立つ9つのベストプラクティスのセットを提示します。
これらのベストプラクティスは、2011年と2012年にForce11ソフトウェア実装ワーキンググループのタスクフォースによって招集された、既存のリソースの作成者の経験から抽出された。
論文 参考訳(メタデータ) (2020-12-24T05:37:54Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。