Fugu-MT 論文翻訳(概要): SciCat: A Curated Dataset of Scientific Software Repositories

論文の概要: SciCat: A Curated Dataset of Scientific Software Repositories

arxiv url: http://arxiv.org/abs/2312.06382v1
Date: Mon, 11 Dec 2023 13:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 15:31:30.077111
Title: SciCat: A Curated Dataset of Scientific Software Repositories
Title（参考訳）: SciCat: 科学ソフトウェアリポジトリのキュレートされたデータセット
Authors: Addi Malviya-Thakur, Reed Milewicz, Lavinia Paganini, Ahmed Samir Imam Mahmoud, Audris Mockus
Abstract要約: 我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
参考スコア（独自算出の注目度）: 4.77982299447395
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The proliferation of open-source scientific software for science and research presents opportunities and challenges. In this paper, we introduce the SciCat dataset -- a comprehensive collection of Free-Libre Open Source Software (FLOSS) projects, designed to address the need for a curated repository of scientific and research software. This collection is crucial for understanding the creation of scientific software and aiding in its development. To ensure extensive coverage, our approach involves selecting projects from a pool of 131 million deforked repositories from the World of Code data source. Subsequently, we analyze README.md files using OpenAI's advanced language models. Our classification focuses on software designed for scientific purposes, research-related projects, and research support software. The SciCat dataset aims to become an invaluable tool for researching science-related software, shedding light on emerging trends, prevalent practices, and challenges in the field of scientific software development. Furthermore, it includes data that can be linked to the World of Code, GitHub, and other platforms, providing a solid foundation for conducting comparative studies between scientific and non-scientific software.
Abstract（参考訳）: 科学と研究のためのオープンソース科学ソフトウェアの普及は、機会と課題を提示している。本稿では,学術研究ソフトウェアをキュレートしたリポジトリの必要性に対処するために,FLOSS(Free-Libre Open Source Software)プロジェクトの包括的コレクションであるSciCatデータセットを紹介する。このコレクションは、科学ソフトウェアの作成と開発の支援を理解するのに不可欠である。広範なカバレッジを確保するため、私たちのアプローチでは、World of Codeデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択します。その後、OpenAIの高度な言語モデルを用いてREADME.mdファイルを解析する。本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。 SciCatデータセットは、科学関連のソフトウェアを研究するための貴重なツールになることを目標としており、科学ソフトウェア開発分野における新たなトレンド、一般的なプラクティス、課題に光を当てている。さらに、World of Code、GitHub、その他のプラットフォームにリンク可能なデータが含まれており、科学的および非科学的ソフトウェアの比較研究を行うための確かな基盤を提供する。

関連論文リスト

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.30934038146965]
SciEvalKitは、科学知能のコア能力に焦点を当てている。物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
論文参考訳（メタデータ） (2025-12-26T17:36:02Z)
OpenDORS: A dataset of openly referenced open research software [1.0026496861838448]
オープンアクセス文献に参照された134,352のユニークなオープンリサーチソフトウェアプロジェクトと134,154のソースコードリポジトリのデータセットを提示する。各データセットレコードは、参照パブリッシュを特定し、ソフトウェアプロジェクトのソースコードリポジトリをリストアップする。 122,425のソースコードリポジトリに対して、データセットは最新バージョン、ライセンス情報、プログラミング言語、記述メタデータファイルのメタデータを提供する。
論文参考訳（メタデータ） (2025-12-01T11:45:50Z)
The Software Observatory: aggregating and analysing software metadata for trend computation and FAIR assessment [0.0]
OpenEBenchのSoftware Observatoryは、様々なソースからソフトウェアメタデータを統合する新しいWebポータルである。当社のプラットフォームは,ライフサイエンス研究ソフトウェアエコシステムにおけるトレンドの分析,パターンの特定,進歩を可能にする。
論文参考訳（メタデータ） (2025-10-07T09:15:02Z)
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文参考訳（メタデータ） (2025-08-28T18:30:52Z)
HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.82973609312178]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-05-07T22:50:23Z)
Scientific Open-Source Software Is Less Likely to Become Abandoned Than One Might Think! Lessons from Curating a Catalog of Maintained Scientific Software [11.900608344217844]
私たちは、World of Codeの公開ソフトウェアリポジトリを分類するために、大きな言語モデルを使用します。生存モデルを推定し、ドメイン、インフラ層、その他の属性がその寿命にどのように影響するかを理解する。私たちは、インフラ層、下流の依存関係、出版物の言及、そして政府の参加者が長寿命に結びついていることに気付きました。
論文参考訳（メタデータ） (2025-04-26T16:49:49Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
Framework and Methodology for Verification of a Complex Scientific Simulation Software, Flash-X [0.8437187555622163]
計算科学は科学的発見の主要な道具として科学ソフトウェアに依存している。科学的なソフトウェア検証は、ユーザーが科学的な研究の一環としてソフトウェアを変更する必要があるため、特に難しい。本稿では,複数の科学領域を対象としたコミュニティシミュレーションソフトウェアであるFlash-Xを開発した方法論について述べる。
論文参考訳（メタデータ） (2023-08-30T17:57:37Z)
CLAIMED -- the open source framework for building coarse-grained operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。 CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文参考訳（メタデータ） (2023-07-12T11:54:39Z)
A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。 DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文参考訳（メタデータ） (2023-06-18T19:01:08Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
An overview of open source Deep Learning-based libraries for Neuroscience [0.0]
本稿では,ディープラーニングの発達と神経科学との関係について概説する。その後、文献および神経科学研究を指向したソフトウェアプロジェクトの特定のハブから収集された、神経情報学のツールボックスとライブラリをレビューする。
論文参考訳（メタデータ） (2022-12-19T09:09:40Z)
Caching and Reproducibility: Making Data Science experiments faster and FAIRer [25.91002326340444]
小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存していることが多い。コードの最初の行が書かれる前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
論文参考訳（メタデータ） (2022-11-08T07:11:02Z)
DeepShovel: An Online Collaborative Platform for Data Extraction in Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。 DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。 14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文参考訳（メタデータ） (2022-02-21T12:18:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。