論文の概要: OpenDORS: A dataset of openly referenced open research software
- arxiv url: http://arxiv.org/abs/2512.01570v1
- Date: Mon, 01 Dec 2025 11:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.82875
- Title: OpenDORS: A dataset of openly referenced open research software
- Title(参考訳): OpenDORS:オープンに参照されたオープンリサーチソフトウェアのデータセット
- Authors: Stephan Druskat, Lars Grunske,
- Abstract要約: オープンアクセス文献に参照された134,352のユニークなオープンリサーチソフトウェアプロジェクトと134,154のソースコードリポジトリのデータセットを提示する。
各データセットレコードは、参照パブリッシュを特定し、ソフトウェアプロジェクトのソースコードリポジトリをリストアップする。
122,425のソースコードリポジトリに対して、データセットは最新バージョン、ライセンス情報、プログラミング言語、記述メタデータファイルのメタデータを提供する。
- 参考スコア(独自算出の注目度): 1.0026496861838448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many academic disciplines, software is created during the research process or for a research purpose. The crucial role of software for research is increasingly acknowledged. The application of software engineering to research software has been formalized as research software engineering, to create better software that enables better research. Despite this, large-scale studies of research software and its development are still lacking. To enable such studies, we present a dataset of 134,352 unique open research software projects and 134,154 source code repositories referenced in open access literature. Each dataset record identifies the referencing publication and lists source code repositories of the software project. For 122,425 source code repositories, the dataset provides metadata on latest versions, license information, programming languages and descriptive metadata files. We summarize the distributions of these features in the dataset and describe additional software metadata that extends the dataset in future work. Finally, we suggest examples of research that could use the dataset to develop a better understanding of research software practice in RSE research.
- Abstract(参考訳): 多くの学術分野において、ソフトウェアは研究プロセスや研究目的のために作成される。
研究のためのソフトウェアの重要性はますます認識されている。
ソフトウェア工学のソフトウェア研究への応用は、より良い研究を可能にするより良いソフトウェアを作成するために、研究ソフトウェア工学として形式化された。
それにもかかわらず、研究ソフトウェアとその開発に関する大規模な研究はいまだに不足している。
このような研究を可能にするために,134,352のユニークなオープンリサーチソフトウェアプロジェクトと,オープンアクセス文献に参照された134,154のソースコードリポジトリのデータセットを提示する。
各データセットレコードは、参照パブリッシュを特定し、ソフトウェアプロジェクトのソースコードリポジトリをリストアップする。
122,425のソースコードリポジトリに対して、データセットは最新バージョン、ライセンス情報、プログラミング言語、記述メタデータファイルのメタデータを提供する。
これらの特徴の分布をデータセットにまとめ、将来の作業でデータセットを拡張する追加のソフトウェアメタデータを記述する。
最後に,RSE研究における研究ソフトウェア実践の理解を深めるためにデータセットを使用する研究事例を提案する。
関連論文リスト
- Making Software FAIR: A machine-assisted workflow for the research software lifecycle [2.682583873311538]
SoFAIRは広く使われている学術的なインフラの能力を拡張する。
研究ソフトウェアライフサイクルの管理に効果的なソリューションを提供し、デプロイします。
論文 参考訳(メタデータ) (2025-01-08T14:17:26Z) - On the Creation of Representative Samples of Software Repositories [1.8599311233727087]
GitHubのようなソーシャルコーディングプラットフォームの出現により、研究者は研究のソースデータとして使うために何百万ものソフトウェアリポジトリにアクセスできるようになった。
現在のサンプリング法は、しばしばランダムな選択に基づいており、研究とは無関係な変数に依存している。
本稿では,ソフトウェアリポジトリの代表例を作成する手法を提案する。このような代表性は,リポジトリの個体群の特徴と実証研究の要件の両方に適切に一致している。
論文 参考訳(メタデータ) (2024-10-01T12:41:15Z) - SciCat: A Curated Dataset of Scientific Software Repositories [4.77982299447395]
我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
論文 参考訳(メタデータ) (2023-12-11T13:46:33Z) - The Software Heritage Open Science Ecosystem [0.0]
ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
論文 参考訳(メタデータ) (2023-10-16T11:32:03Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Nine Best Practices for Research Software Registries and Repositories: A
Concise Guide [63.52960372153386]
私たちは、マネージャが個々のレジストリやリポジトリを管理するスコープ、プラクティス、ルールを定義するのに役立つ9つのベストプラクティスのセットを提示します。
これらのベストプラクティスは、2011年と2012年にForce11ソフトウェア実装ワーキンググループのタスクフォースによって招集された、既存のリソースの作成者の経験から抽出された。
論文 参考訳(メタデータ) (2020-12-24T05:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。