論文の概要: Caching and Reproducibility: Making Data Science experiments faster and
FAIRer
- arxiv url: http://arxiv.org/abs/2211.04049v2
- Date: Wed, 9 Nov 2022 14:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:43:53.118569
- Title: Caching and Reproducibility: Making Data Science experiments faster and
FAIRer
- Title(参考訳): キャッシングと再現性: データサイエンス実験の高速化とFAIRer
- Authors: Moritz Schubotz, Ankit Satpute, Andre Greiner-Petter, Akiko Aizawa,
Bela Gipp
- Abstract要約: 小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存していることが多い。
コードの最初の行が書かれる前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
- 参考スコア(独自算出の注目度): 25.91002326340444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small to medium-scale data science experiments often rely on research
software developed ad-hoc by individual scientists or small teams. Often there
is no time to make the research software fast, reusable, and open access. The
consequence is twofold. First, subsequent researchers must spend significant
work hours building upon the proposed hypotheses or experimental framework. In
the worst case, others cannot reproduce the experiment and reuse the findings
for subsequent research. Second, suppose the ad-hoc research software fails
during often long-running computationally expensive experiments. In that case,
the overall effort to iteratively improve the software and rerun the
experiments creates significant time pressure on the researchers. We suggest
making caching an integral part of the research software development process,
even before the first line of code is written. This article outlines caching
recommendations for developing research software in data science projects. Our
recommendations provide a perspective to circumvent common problems such as
propriety dependence, speed, etc. At the same time, caching contributes to the
reproducibility of experiments in the open science workflow. Concerning the
four guiding principles, i.e., Findability, Accessibility, Interoperability,
and Reusability (FAIR), we foresee that including the proposed recommendation
in a research software development will make the data related to that software
FAIRer for both machines and humans. We exhibit the usefulness of some of the
proposed recommendations on our recently completed research software project in
mathematical information retrieval.
- Abstract(参考訳): 小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存することが多い。
しばしば、研究ソフトウェアを速く、再利用し、オープンアクセスにする時間はありません。
その結果は2倍になる。
第一に、その後の研究者は提案された仮説や実験的な枠組みに基づいてかなりの時間を費やしなければならない。
最悪の場合、実験を再現し、その結果をその後の研究のために再利用することはできない。
第二に、このアドホックな研究ソフトウェアは、しばしば長期にわたる計算コストの高い実験で失敗すると仮定する。
この場合、ソフトウェアを反復的に改善し、実験を再実行するための全体的な努力は、研究者にかなりの時間的プレッシャーを与えます。
コードの最初の行を書く前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。
本稿では,データサイエンスプロジェクトにおける研究ソフトウェア開発のためのキャッシュレコメンデーションについて概説する。
当社の勧告は、合理性依存や速度などの共通問題を回避するための視点を提供する。
同時に、キャッシュはオープンサイエンスのワークフローにおける実験の再現性に寄与する。
ファインダビリティ、アクセシビリティ、インターオペラビリティ、リユースビリティ(FAIR)の4つの原則に関して、研究ソフトウェア開発における提案された推奨を含めると、マシンと人間の両方のソフトウェアFAIRerに関連するデータが得られると予測している。
本稿では,最近完了した研究ソフトウェアプロジェクトにおける数理情報検索における提案提案の有用性を示す。
関連論文リスト
- MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - A pragmatic workflow for research software engineering in computational
science [0.0]
コンピュータサイエンス・エンジニアリング(CSE)の大学研究グループには、通常、研究ソフトウェア工学(RSE)のための専用の資金と人員が不足している。
RSEは、持続可能な研究ソフトウェア開発と再現可能な結果から焦点をシフトします。
本稿では,これらの課題に対処し,CSEにおける研究成果の質を向上させるためのRSEワークフローを提案する。
論文 参考訳(メタデータ) (2023-10-02T08:04:12Z) - Managing Software Provenance to Enhance Reproducibility in Computational
Research [1.1421942894219899]
計算に基づく科学研究の管理は、個人の好みと研究の性質に基づいて実験を設計する個々の研究者に委ねられることが多い。
我々は、研究者がトレーサビリティーの明確な記録を提供するための実行環境を明示的に作成することで、計算に基づく科学研究の品質、効率、そして改善できると考えている。
論文 参考訳(メタデータ) (2023-08-29T21:13:18Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - CLAIMED -- the open source framework for building coarse-grained
operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。
CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文 参考訳(メタデータ) (2023-07-12T11:54:39Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z) - PyExperimenter: Easily distribute experiments and track results [63.871474825689134]
PyExperimenterは、アルゴリズムの実験的な研究結果のセットアップ、ドキュメンテーション、実行、およびその後の評価を容易にするツールである。
人工知能の分野で研究者が使用することを意図しているが、それらに限定されていない。
論文 参考訳(メタデータ) (2023-01-16T10:43:02Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - A user-centered approach to designing an experimental laboratory data
platform [0.0]
実験的なデータプラットフォームにおいて、設計と機能の本質的な要素が何を求めているのかを理解するために、ユーザ中心のアプローチを採用しています。
リッチで複雑な実験データセットをコンテキスト化できる能力を持つことが、ユーザの主な要件であることに気付きました。
論文 参考訳(メタデータ) (2020-07-28T19:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。