論文の概要: SciCat: A Curated Dataset of Scientific Software Repositories
- arxiv url: http://arxiv.org/abs/2312.06382v1
- Date: Mon, 11 Dec 2023 13:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:31:30.077111
- Title: SciCat: A Curated Dataset of Scientific Software Repositories
- Title(参考訳): SciCat: 科学ソフトウェアリポジトリのキュレートされたデータセット
- Authors: Addi Malviya-Thakur, Reed Milewicz, Lavinia Paganini, Ahmed Samir Imam
Mahmoud, Audris Mockus
- Abstract要約: 我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
- 参考スコア(独自算出の注目度): 4.77982299447395
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The proliferation of open-source scientific software for science and research
presents opportunities and challenges. In this paper, we introduce the SciCat
dataset -- a comprehensive collection of Free-Libre Open Source Software
(FLOSS) projects, designed to address the need for a curated repository of
scientific and research software. This collection is crucial for understanding
the creation of scientific software and aiding in its development. To ensure
extensive coverage, our approach involves selecting projects from a pool of 131
million deforked repositories from the World of Code data source. Subsequently,
we analyze README.md files using OpenAI's advanced language models. Our
classification focuses on software designed for scientific purposes,
research-related projects, and research support software. The SciCat dataset
aims to become an invaluable tool for researching science-related software,
shedding light on emerging trends, prevalent practices, and challenges in the
field of scientific software development. Furthermore, it includes data that
can be linked to the World of Code, GitHub, and other platforms, providing a
solid foundation for conducting comparative studies between scientific and
non-scientific software.
- Abstract(参考訳): 科学と研究のためのオープンソース科学ソフトウェアの普及は、機会と課題を提示している。
本稿では,学術研究ソフトウェアをキュレートしたリポジトリの必要性に対処するために,FLOSS(Free-Libre Open Source Software)プロジェクトの包括的コレクションであるSciCatデータセットを紹介する。
このコレクションは、科学ソフトウェアの作成と開発の支援を理解するのに不可欠である。
広範なカバレッジを確保するため、私たちのアプローチでは、World of Codeデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択します。
その後、OpenAIの高度な言語モデルを用いてREADME.mdファイルを解析する。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
SciCatデータセットは、科学関連のソフトウェアを研究するための貴重なツールになることを目標としており、科学ソフトウェア開発分野における新たなトレンド、一般的なプラクティス、課題に光を当てている。
さらに、World of Code、GitHub、その他のプラットフォームにリンク可能なデータが含まれており、科学的および非科学的ソフトウェアの比較研究を行うための確かな基盤を提供する。
関連論文リスト
- DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - SciGLM: Training Scientific Language Models with Self-Reflective
Instruction Annotation and Tuning [60.14510984576027]
SciGLMは、大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。
本研究では, 自己回帰的指示アノテーションの枠組みを適用し, 難解な科学的問題に対する段階的推論を生成する。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - Framework and Methodology for Verification of a Complex Scientific
Simulation Software, Flash-X [0.8437187555622163]
計算科学は科学的発見の主要な道具として科学ソフトウェアに依存している。
科学的なソフトウェア検証は、ユーザーが科学的な研究の一環としてソフトウェアを変更する必要があるため、特に難しい。
本稿では,複数の科学領域を対象としたコミュニティシミュレーションソフトウェアであるFlash-Xを開発した方法論について述べる。
論文 参考訳(メタデータ) (2023-08-30T17:57:37Z) - CLAIMED -- the open source framework for building coarse-grained
operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。
CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文 参考訳(メタデータ) (2023-07-12T11:54:39Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - An overview of open source Deep Learning-based libraries for
Neuroscience [0.0]
本稿では,ディープラーニングの発達と神経科学との関係について概説する。
その後、文献および神経科学研究を指向したソフトウェアプロジェクトの特定のハブから収集された、神経情報学のツールボックスとライブラリをレビューする。
論文 参考訳(メタデータ) (2022-12-19T09:09:40Z) - Caching and Reproducibility: Making Data Science experiments faster and
FAIRer [25.91002326340444]
小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存していることが多い。
コードの最初の行が書かれる前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
論文 参考訳(メタデータ) (2022-11-08T07:11:02Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。