論文の概要: An Empirical Investigation of Pre-Trained Deep Learning Model Reuse in the Scientific Process
- arxiv url: http://arxiv.org/abs/2603.13584v1
- Date: Fri, 13 Mar 2026 20:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.28468
- Title: An Empirical Investigation of Pre-Trained Deep Learning Model Reuse in the Scientific Process
- Title(参考訳): 科学的プロセスにおける事前学習深層学習モデルの再利用に関する実証的研究
- Authors: Nicholas M. Synovic, Karolina Ryzka, Alessandra V. Vellucci Solari, Kenny Lyons, James C. Davis, George K. Thiruvathukal,
- Abstract要約: 自然科学におけるPTMの再利用パターンに関する最初の実証的研究について述べる。
我々は、17,511個のピアレビュー、オープンアクセス論文を分析し、科学分野によるPTMの再利用、関連する再利用パターン、および科学的プロセスへのPTMの統合の影響を明らかにする。
- 参考スコア(独自算出の注目度): 40.399530303181265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has achieved recognition for its impact within natural sciences, however scientists are inhibited by the prohibitive technical cost and computational complexity of training project specific models from scratch. Following software engineering community guidance, natural scientists are reusing pre-trained deep learning models (PTMs) to amortize these costs. While prior works recommend PTM reuse patterns, to our knowledge, little work has been done to empirically evaluate their usage and impact within the natural sciences. We present the first empirical study of PTM reuse patterns in the natural sciences, quantifying the utilization and impact of conceptual, adaptation, and deployment reuse within the scientific process. Leveraging an automated large language model driven pipeline, we analyze 17,511 peer reviewed, open access papers to identify PTM reuse by scientific field, associated reuse patterns, and the impact of PTM integration into the scientific process from January 1st, 2000 to December 10th, 2025. Our results show that "Biochemistry, Genetics and Molecular Biology" has outpaced other natural scientific fields in PTM reuse, "adaptation" reuse is the most prevalent PTM reuse pattern identified across all natural science fields, and the "Test" stage of the scientific process has been most impacted by PTM integration. This aligns with the growing interest of leveraging computational methods to conduct high throughput, data driven scientific research. Our work characterizes and identifies current PTM reuse practices within the natural sciences, evaluates their impact on the scientific process, and establishes a foundation for future work into the implementation and broader scientific implications of PTM reuse.
- Abstract(参考訳): ディープラーニングは、自然科学におけるその影響について認識されているが、科学者は、プロジェクト固有のモデルをゼロからトレーニングすることによる、技術的コストと計算の複雑さによって妨げられている。
ソフトウェアエンジニアリングコミュニティのガイダンスに従って、自然科学者はこれらのコストを償却するために事前訓練されたディープラーニングモデル(PTM)を再利用している。
従来の研究では、PTMの再利用パターンを推奨していましたが、私たちの知る限り、自然科学におけるその使用と影響を実証的に評価する作業はほとんど行われていません。
本研究は, 自然科学におけるPTM再利用パターンの実証的研究であり, 科学プロセスにおける概念的, 適応的, 展開的再利用の活用と影響を定量化するものである。
2000年1月1日から2025年12月10日まで,大規模言語モデル駆動パイプラインの自動化を活用して17,511個のピアレビュー,オープンアクセス論文を分析し,科学分野によるPTM再利用の特定,関連する再利用パターン,および科学的プロセスへのPTM統合の影響について検討した。
以上の結果から, 生物化学, 遺伝学, 分子生物学は, PTM の再利用における他の自然科学分野よりも大きくなり, 適応的再利用はすべての自然科学分野において最も広く認識されている PTM の再利用パターンであり, 科学的プロセスの「テスト」段階は PTM 統合によって最も影響を受けていることが明らかとなった。
これは、高いスループット、データ駆動科学研究を実行するために計算手法を活用することへの関心の高まりと一致している。
本研究は, 自然科学における現在のPTM再利用の実践を特徴づけ, 同定し, 科学的プロセスへの影響を評価し, PTM再利用の実践と幅広い科学的影響に関する今後の研究の基盤を確立するものである。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Transformers for molecular property prediction: Lessons learned from the past five years [0.0]
我々は、現在利用可能なモデルを分析し、MPP用のトランスフォーマーモデルを微調整し、トレーニング時に生じる重要な質問を探索する。
我々は、異なるモデルを比較する際の課題に対処し、標準化されたデータ分割とロバストな統計分析の必要性を強調した。
論文 参考訳(メタデータ) (2024-04-05T09:05:37Z) - An Empirical Study of Pre-Trained Model Reuse in the Hugging Face Deep
Learning Model Registry [2.1346819928536687]
機械学習エンジニアが大規模事前学習モデル(PTM)の再利用を開始
私たちは、最も人気のあるPTMエコシステムであるHugging Faceの実践者12人にインタビューして、PTM再利用のプラクティスと課題を学びました。
PTM再利用の3つの課題は、属性の欠如、クレームと実際のパフォーマンスの相違、モデルリスクである。
論文 参考訳(メタデータ) (2023-03-05T02:28:15Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Reinforcement Learning in a Physics-Inspired Semi-Markov Environment [2.5304062944594827]
物理に着想を得た準マルコフRL環境、すなわち位相変化環境を示す。
MDPと部分的に観測可能なMPPの両方に対して,値に基づくRLアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2020-04-15T20:43:29Z) - Complete CVDL Methodology for Investigating Hydrodynamic Instabilities [0.49873153106566565]
流体力学において、最も重要な研究分野の1つは流体力学の不安定性と異なる流れ状態におけるその進化である。
現在、そのような現象、すなわち分析モデル、実験、シミュレーションを理解するために3つの主要な手法が使用されている。
我々は、この研究の大部分が、Deep Learning(CVDL、Deep Computer-Vision)の分野における最近の画期的な進歩を用いて、分析されるべきであると主張している。
具体的には、最も代表的な不安定性であるRayleigh-Taylorの研究に焦点をあて、その振る舞いをシミュレートし、オープンソースの状態を作り出す。
論文 参考訳(メタデータ) (2020-04-03T13:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。