論文の概要: Best Practices for Machine Learning Experimentation in Scientific Applications
- arxiv url: http://arxiv.org/abs/2511.21354v2
- Date: Thu, 27 Nov 2025 06:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.811341
- Title: Best Practices for Machine Learning Experimentation in Scientific Applications
- Title(参考訳): 科学応用における機械学習実験のベストプラクティス
- Authors: Umberto Michelucci, Francesca Venturini,
- Abstract要約: 本稿では,科学的応用における機械学習実験の実践的かつ構造化されたガイドを提案する。
データセット作成からモデル選択,評価に至るまで,ステップバイステップのワークフローを概説する。
本稿では、対数オーバーフィッティング比(LOR)や複合オーバーフィッティングスコア(COS)など、折り畳みのオーバーフィッティングと不安定性を考慮に入れたメトリクスを提案する。
- 参考スコア(独自算出の注目度): 3.093890460224435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine learning (ML) is increasingly adopted in scientific research, yet the quality and reliability of results often depend on how experiments are designed and documented. Poor baselines, inconsistent preprocessing, or insufficient validation can lead to misleading conclusions about model performance. This paper presents a practical and structured guide for conducting ML experiments in scientific applications, focussing on reproducibility, fair comparison, and transparent reporting. We outline a step-by-step workflow, from dataset preparation to model selection and evaluation, and propose metrics that account for overfitting and instability across validation folds, including the Logarithmic Overfitting Ratio (LOR) and the Composite Overfitting Score (COS). Through recommended practices and example reporting formats, this work aims to support researchers in establishing robust baselines and drawing valid evidence-based insights from ML models applied to scientific problems.
- Abstract(参考訳): 機械学習(ML)は科学研究にますます採用されているが、結果の品質と信頼性は実験の設計と文書化の方法に依存することが多い。
粗悪なベースライン、一貫性のない前処理、あるいは不十分なバリデーションは、モデルパフォーマンスに関する誤解を招く可能性がある。
本稿では,ML実験を科学的応用,再現性,公正な比較,透過的な報告に焦点をあてる実践的かつ構造化されたガイドを提案する。
本稿では,データセット作成からモデル選択,評価に至るまで,ステップバイステップのワークフローの概要を述べるとともに,対数オーバーフィッティング比(LOR)や複合オーバーフィッティングスコア(COS)など,バリデーションフォールド間のオーバーフィッティングと不安定性を考慮したメトリクスを提案する。
この研究は、推奨のプラクティスとサンプルレポートフォーマットを通じて、堅牢なベースラインを確立し、科学的問題に適用されたMLモデルから有効なエビデンスベースの洞察を引き出す研究者を支援することを目的としている。
関連論文リスト
- FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility [0.0]
機械学習モデルを高精細な臨床環境にデプロイしようとするとき、よく知られた障壁が存在する。
評価において,より強力なベースラインモデルを含むと,下流効果が重要となることを実証的に示す。
本稿では,MLモデルを臨床現場でより効果的に研究・展開するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-09-18T16:38:37Z) - Unraveling overoptimism and publication bias in ML-driven science [14.38643099447636]
最近の研究では、機械学習モデルのパフォーマンスが過度に最適化されていることが示唆されている。
本稿では,パラメトリック学習曲線と前述のバイアスを統合することで,観測精度の新たなモデルを提案する。
神経学的条件の分類のメタ分析にモデルを適用し、各領域におけるMLに基づく予測の固有の限界を推定する。
論文 参考訳(メタデータ) (2024-05-23T10:43:20Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning [0.0]
LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。
我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
論文 参考訳(メタデータ) (2023-11-07T21:09:57Z) - On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文 参考訳(メタデータ) (2022-06-24T14:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。