論文の概要: SciCat: A Curated Dataset of Scientific Software Repositories
- arxiv url: http://arxiv.org/abs/2312.06382v1
- Date: Mon, 11 Dec 2023 13:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:31:30.077111
- Title: SciCat: A Curated Dataset of Scientific Software Repositories
- Title(参考訳): SciCat: 科学ソフトウェアリポジトリのキュレートされたデータセット
- Authors: Addi Malviya-Thakur, Reed Milewicz, Lavinia Paganini, Ahmed Samir Imam
Mahmoud, Audris Mockus
- Abstract要約: 我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
- 参考スコア(独自算出の注目度): 4.77982299447395
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The proliferation of open-source scientific software for science and research
presents opportunities and challenges. In this paper, we introduce the SciCat
dataset -- a comprehensive collection of Free-Libre Open Source Software
(FLOSS) projects, designed to address the need for a curated repository of
scientific and research software. This collection is crucial for understanding
the creation of scientific software and aiding in its development. To ensure
extensive coverage, our approach involves selecting projects from a pool of 131
million deforked repositories from the World of Code data source. Subsequently,
we analyze README.md files using OpenAI's advanced language models. Our
classification focuses on software designed for scientific purposes,
research-related projects, and research support software. The SciCat dataset
aims to become an invaluable tool for researching science-related software,
shedding light on emerging trends, prevalent practices, and challenges in the
field of scientific software development. Furthermore, it includes data that
can be linked to the World of Code, GitHub, and other platforms, providing a
solid foundation for conducting comparative studies between scientific and
non-scientific software.
- Abstract(参考訳): 科学と研究のためのオープンソース科学ソフトウェアの普及は、機会と課題を提示している。
本稿では,学術研究ソフトウェアをキュレートしたリポジトリの必要性に対処するために,FLOSS(Free-Libre Open Source Software)プロジェクトの包括的コレクションであるSciCatデータセットを紹介する。
このコレクションは、科学ソフトウェアの作成と開発の支援を理解するのに不可欠である。
広範なカバレッジを確保するため、私たちのアプローチでは、World of Codeデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択します。
その後、OpenAIの高度な言語モデルを用いてREADME.mdファイルを解析する。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
SciCatデータセットは、科学関連のソフトウェアを研究するための貴重なツールになることを目標としており、科学ソフトウェア開発分野における新たなトレンド、一般的なプラクティス、課題に光を当てている。
さらに、World of Code、GitHub、その他のプラットフォームにリンク可能なデータが含まれており、科学的および非科学的ソフトウェアの比較研究を行うための確かな基盤を提供する。
関連論文リスト
- SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
本稿では,250以上の科学LLMを包括的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約する。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Framework and Methodology for Verification of a Complex Scientific
Simulation Software, Flash-X [0.8437187555622163]
計算科学は科学的発見の主要な道具として科学ソフトウェアに依存している。
科学的なソフトウェア検証は、ユーザーが科学的な研究の一環としてソフトウェアを変更する必要があるため、特に難しい。
本稿では,複数の科学領域を対象としたコミュニティシミュレーションソフトウェアであるFlash-Xを開発した方法論について述べる。
論文 参考訳(メタデータ) (2023-08-30T17:57:37Z) - CLAIMED -- the open source framework for building coarse-grained
operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。
CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文 参考訳(メタデータ) (2023-07-12T11:54:39Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - An overview of open source Deep Learning-based libraries for
Neuroscience [0.0]
本稿では,ディープラーニングの発達と神経科学との関係について概説する。
その後、文献および神経科学研究を指向したソフトウェアプロジェクトの特定のハブから収集された、神経情報学のツールボックスとライブラリをレビューする。
論文 参考訳(メタデータ) (2022-12-19T09:09:40Z) - Caching and Reproducibility: Making Data Science experiments faster and
FAIRer [25.91002326340444]
小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存していることが多い。
コードの最初の行が書かれる前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
論文 参考訳(メタデータ) (2022-11-08T07:11:02Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。