論文の概要: Scientific Open-Source Software Is Less Likely to Become Abandoned Than One Might Think! Lessons from Curating a Catalog of Maintained Scientific Software
- arxiv url: http://arxiv.org/abs/2504.18971v1
- Date: Sat, 26 Apr 2025 16:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.071456
- Title: Scientific Open-Source Software Is Less Likely to Become Abandoned Than One Might Think! Lessons from Curating a Catalog of Maintained Scientific Software
- Title(参考訳): 科学的なオープンソースソフトウェアは、たった1つの考えから外れるほどではない! 保守された科学ソフトウェアカタログのキュレーションから学んだこと
- Authors: Addi Malviya Thakur, Reed Milewicz, Mahmoud Jahanshahi, Lavínia Paganini, Bogdan Vasilescu, Audris Mockus,
- Abstract要約: 私たちは、World of Codeの公開ソフトウェアリポジトリを分類するために、大きな言語モデルを使用します。
生存モデルを推定し、ドメイン、インフラ層、その他の属性がその寿命にどのように影響するかを理解する。
私たちは、インフラ層、下流の依存関係、出版物の言及、そして政府の参加者が長寿命に結びついていることに気付きました。
- 参考スコア(独自算出の注目度): 11.900608344217844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific software is essential to scientific innovation and in many ways it is distinct from other types of software. Abandoned (or unmaintained), buggy, and hard to use software, a perception often associated with scientific software can hinder scientific progress, yet, in contrast to other types of software, its longevity is poorly understood. Existing data curation efforts are fragmented by science domain and/or are small in scale and lack key attributes. We use large language models to classify public software repositories in World of Code into distinct scientific domains and layers of the software stack, curating a large and diverse collection of over 18,000 scientific software projects. Using this data, we estimate survival models to understand how the domain, infrastructural layer, and other attributes of scientific software affect its longevity. We further obtain a matched sample of non-scientific software repositories and investigate the differences. We find that infrastructural layers, downstream dependencies, mentions of publications, and participants from government are associated with a longer lifespan, while newer projects with participants from academia had shorter lifespan. Against common expectations, scientific projects have a longer lifetime than matched non-scientific open-source software projects. We expect our curated attribute-rich collection to support future research on scientific software and provide insights that may help extend longevity of both scientific and other projects.
- Abstract(参考訳): 科学ソフトウェアは科学革新に不可欠であり、多くの点で他の種類のソフトウェアとは異なる。
科学的ソフトウェアに関連する知覚は、科学的な進歩を妨げることがあるが、他のタイプのソフトウェアとは対照的に、その長寿は理解されていない。
既存のデータキュレーションの取り組みは、科学領域によって断片化され、または/または規模が小さく、重要な属性が欠けている。
大規模な言語モデルを使用して、World of Codeの公開ソフトウェアリポジトリを、ソフトウェアスタックの異なる科学的ドメインとレイヤに分類しています。
このデータを用いて、生存モデルを推定し、ドメイン、インフラ層、その他の科学的ソフトウェアの属性がその寿命にどのように影響するかを理解する。
さらに、非科学的ソフトウェアリポジトリのマッチングサンプルを取得し、その相違点について検討する。
その結果, 基盤層, 下流の依存関係, 出版物の言及, および政府の参加者が長寿命に結びついていること, アカデミックの参加者による新たなプロジェクトの方が寿命が短いことが判明した。
一般的な期待に反して、科学プロジェクトは非科学的なオープンソースソフトウェアプロジェクトと比較すると寿命が長い。
私たちのキュレートされた属性豊富なコレクションは、将来の科学ソフトウェアの研究を支援し、科学的および他のプロジェクトの長寿命化に役立つ洞察を提供することを期待しています。
関連論文リスト
- Scaling Laws in Scientific Discovery with AI and Robot Scientists [72.3420699173245]
自律的なジェネラリスト科学者(AGS)の概念は、エージェントAIとエンボディロボットを組み合わせて、研究ライフサイクル全体を自動化している。
AGSは科学的発見に必要な時間と資源を大幅に削減することを目指している。
これらの自律的なシステムが研究プロセスにますます統合されるにつれて、科学的な発見が新しいスケーリング法則に従うかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2025-03-28T14:00:27Z) - DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery [61.02102713094486]
優れた意思決定を可能にするため、科学的推論において優れた解釈が重要である。
本稿では,ニューラルネットワークをインターリーブする学習プログラムを用いて,そのような解釈可能な設計モデルを得るための自動手法を提案する。
本稿では,大言語モデル (LLM) の常識と事前知識を活用する進化的アルゴリズムであるDiSciPLEを提案し,視覚データを説明するPythonプログラムを作成する。
論文 参考訳(メタデータ) (2025-02-14T10:26:14Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Cycling on the Freeway: The Perilous State of Open Source Neuroscience Software [46.83624918571962]
既存の神経科学オープンソースソフトウェアのエコシステムは不安定である、と我々は主張する。
近年、神経科学データ分析のためのフリーのオープンソース科学ソフトウェア(FOSSS)への依存がシフトしている。
論文 参考訳(メタデータ) (2024-03-28T13:11:09Z) - SciCat: A Curated Dataset of Scientific Software Repositories [4.77982299447395]
我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
論文 参考訳(メタデータ) (2023-12-11T13:46:33Z) - Framework and Methodology for Verification of a Complex Scientific
Simulation Software, Flash-X [0.8437187555622163]
計算科学は科学的発見の主要な道具として科学ソフトウェアに依存している。
科学的なソフトウェア検証は、ユーザーが科学的な研究の一環としてソフトウェアを変更する必要があるため、特に難しい。
本稿では,複数の科学領域を対象としたコミュニティシミュレーションソフトウェアであるFlash-Xを開発した方法論について述べる。
論文 参考訳(メタデータ) (2023-08-30T17:57:37Z) - CLAIMED -- the open source framework for building coarse-grained
operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。
CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文 参考訳(メタデータ) (2023-07-12T11:54:39Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Caching and Reproducibility: Making Data Science experiments faster and
FAIRer [25.91002326340444]
小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存していることが多い。
コードの最初の行が書かれる前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
論文 参考訳(メタデータ) (2022-11-08T07:11:02Z) - End-of-Life of Software How is it Defined and Managed? [1.370633147306388]
古いソフトウェアを捨てて、急速に変化するニーズと要求を満たす新しいソフトウェアを取得するのは、より迅速かつ安価になってきている。
本稿では,ソフトウェアにおけるエンド・オブ・ライフのシステム工学的概念について考察する。
廃止を試みて放棄されたソフトウェアの例を先送りし、放棄されたソフトウェアアーティファクトの反感を探求する。
論文 参考訳(メタデータ) (2022-04-08T01:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。