論文の概要: A Dataset For Computational Reproducibility
- arxiv url: http://arxiv.org/abs/2504.08684v1
- Date: Fri, 11 Apr 2025 16:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:43.113532
- Title: A Dataset For Computational Reproducibility
- Title(参考訳): 計算的再現性のためのデータセット
- Authors: Lázaro Costa, Susana Barbosa, Jácome Cunha,
- Abstract要約: 本稿では、幅広い分野の科学分野をカバーする計算実験のデータセットを紹介する。
ソフトウェア依存関係、実行手順、正確な再現に必要な設定の詳細が組み込まれている。
ツールの有効性を客観的に評価し比較するための標準化データセットを確立することで、普遍的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 2.147712260420443
- License:
- Abstract: Ensuring the reproducibility of scientific work is crucial as it allows the consistent verification of scientific claims and facilitates the advancement of knowledge by providing a reliable foundation for future research. However, scientific work based on computational artifacts, such as scripts for statistical analysis or software prototypes, faces significant challenges in achieving reproducibility. These challenges are based on the variability of computational environments, rapid software evolution, and inadequate documentation of procedures. As a consequence, such artifacts often are not (easily) reproducible, undermining the credibility of scientific findings. The evaluation of reproducibility approaches, in particular of tools, is challenging in many aspects, one being the need to test them with the correct inputs, in this case computational experiments. Thus, this article introduces a curated dataset of computational experiments covering a broad spectrum of scientific fields, incorporating details about software dependencies, execution steps, and configurations necessary for accurate reproduction. The dataset is structured to reflect diverse computational requirements and methodologies, ranging from simple scripts to complex, multi-language workflows, ensuring it presents the wide range of challenges researchers face in reproducing computational studies. It provides a universal benchmark by establishing a standardized dataset for objectively evaluating and comparing the effectiveness of reproducibility tools. Each experiment included in the dataset is carefully documented to ensure ease of use. We added clear instructions following a standard, so each experiment has the same kind of instructions, making it easier for researchers to run each of them with their own reproducibility tool.
- Abstract(参考訳): 科学的研究の再現性を確保することは、科学的な主張を一貫した検証を可能にし、将来の研究の信頼できる基盤を提供することによって知識の進歩を促進するために重要である。
しかし、統計分析やソフトウェアプロトタイプのスクリプトなどの計算人工物に基づく科学的研究は、再現性を達成する上で大きな課題に直面している。
これらの課題は、計算環境の多様性、迅速なソフトウェア進化、手続きの不十分なドキュメントに基づいている。
その結果、このような人工物は(容易に)再現できないことが多く、科学的発見の信頼性を損なうことになる。
再現性の評価は、特にツールでは、正しい入力でそれらをテストする必要があるが、この場合の計算実験では、多くの点で困難である。
そこで本稿では,ソフトウェア依存,実行手順,正確な再現に必要な構成などの詳細を組み込んだ,幅広い分野の科学分野をカバーする計算実験のキュレートしたデータセットを紹介する。
このデータセットは、単純なスクリプトから複雑な多言語ワークフローまで、さまざまな計算要件と方法論を反映して構成されており、研究者が計算研究を再現する際に直面する幅広い課題を確実に示している。
再現性ツールの有効性を客観的に評価し比較するための標準化データセットを確立することで、普遍的なベンチマークを提供する。
データセットに含まれる各実験は、使いやすさを確保するために慎重に文書化されている。
私たちは、標準に従って明確な指示を加えたので、それぞれの実験は、同じ種類の命令を持ち、研究者がそれぞれの再現性ツールで実行しやすくなるようにしました。
関連論文リスト
- Probing the limitations of multimodal language models for chemistry and materials research [3.422786943576035]
実世界の化学や材料科学のタスクを視覚言語モデルがどのように扱うかを評価するためのベンチマークであるMaCBenchを紹介する。
これらのシステムは、基本的な知覚タスクにおいて有望な能力を示すが、空間的推論、クロスモーダル情報合成、論理的推論の基本的な限界を示す。
私たちの洞察は、化学や材料科学以外にも重要な意味を持ち、信頼性の高いマルチモーダルAI科学アシスタントを開発するには、適切なトレーニングデータとそれらのモデルをトレーニングするためのアプローチのキュレーションの進歩が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-11-25T21:51:45Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - Towards Controlled Table-to-Text Generation with Scientific Reasoning [46.87189607486007]
本稿では,科学的文書分析の自動化を目的とした,科学的データに対するユーザの嗜好に合致する,流動的で論理的な記述を生成するための新しいタスクを提案する。
学術文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
その結果、大規模なモデルでは、ユーザの好みに合わせて正確なコンテンツを生成するのに苦労していることがわかりました。
論文 参考訳(メタデータ) (2023-12-08T22:57:35Z) - Managing Software Provenance to Enhance Reproducibility in Computational
Research [1.1421942894219899]
計算に基づく科学研究の管理は、個人の好みと研究の性質に基づいて実験を設計する個々の研究者に委ねられることが多い。
我々は、研究者がトレーサビリティーの明確な記録を提供するための実行環境を明示的に作成することで、計算に基づく科学研究の品質、効率、そして改善できると考えている。
論文 参考訳(メタデータ) (2023-08-29T21:13:18Z) - A Backend Platform for Supporting the Reproducibility of Computational
Experiments [2.1485350418225244]
同じフレームワークやコード、データソース、プログラミング言語、依存関係などを使って、同じ環境を再現することは困難です。
本研究では,実験の共有,構成,パッケージング,実行を可能にする統合開発環境を提案する。
これらの実験の20(80%)を再現し,その成果を最小限の努力で得られた。
論文 参考訳(メタデータ) (2023-06-29T10:29:11Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - PyExperimenter: Easily distribute experiments and track results [63.871474825689134]
PyExperimenterは、アルゴリズムの実験的な研究結果のセットアップ、ドキュメンテーション、実行、およびその後の評価を容易にするツールである。
人工知能の分野で研究者が使用することを意図しているが、それらに限定されていない。
論文 参考訳(メタデータ) (2023-01-16T10:43:02Z) - Experiments as Code: A Concept for Reproducible, Auditable, Debuggable,
Reusable, & Scalable Experiments [7.557948558412152]
実験研究における一般的な関心事は、監査可能性と実験である。
実験全体をドキュメント化するだけでなく、自動化コードも提供する"Experiments as Code"パラダイムを提案する。
論文 参考訳(メタデータ) (2022-02-24T12:15:00Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - A user-centered approach to designing an experimental laboratory data
platform [0.0]
実験的なデータプラットフォームにおいて、設計と機能の本質的な要素が何を求めているのかを理解するために、ユーザ中心のアプローチを採用しています。
リッチで複雑な実験データセットをコンテキスト化できる能力を持つことが、ユーザの主な要件であることに気付きました。
論文 参考訳(メタデータ) (2020-07-28T19:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。