論文の概要: Lessons from the trenches on evaluating machine-learning systems in materials science
- arxiv url: http://arxiv.org/abs/2503.10837v1
- Date: Thu, 13 Mar 2025 19:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:41.869747
- Title: Lessons from the trenches on evaluating machine-learning systems in materials science
- Title(参考訳): 材料科学における機械学習システム評価のトレンチからの教訓
- Authors: Nawaf Alampara, Mara Schilling-Wilhelmi, Kevin Maik Jablonka,
- Abstract要約: 科学における機械学習評価フレームワークの現状と今後の方向性について検討する。
構成妥当性,データ品質問題,メートル法設計制限,ベンチマーク保守問題など,機械学習評価に共通する課題を特定する。
本研究では,測定選択と制限を文書化するための構造化手法として評価カードを提案する。
- 参考スコア(独自算出の注目度): 0.3592274960837379
- License:
- Abstract: Measurements are fundamental to knowledge creation in science, enabling consistent sharing of findings and serving as the foundation for scientific discovery. As machine learning systems increasingly transform scientific fields, the question of how to effectively evaluate these systems becomes crucial for ensuring reliable progress. In this review, we examine the current state and future directions of evaluation frameworks for machine learning in science. We organize the review around a broadly applicable framework for evaluating machine learning systems through the lens of statistical measurement theory, using materials science as our primary context for examples and case studies. We identify key challenges common across machine learning evaluation such as construct validity, data quality issues, metric design limitations, and benchmark maintenance problems that can lead to phantom progress when evaluation frameworks fail to capture real-world performance needs. By examining both traditional benchmarks and emerging evaluation approaches, we demonstrate how evaluation choices fundamentally shape not only our measurements but also research priorities and scientific progress. These findings reveal the critical need for transparency in evaluation design and reporting, leading us to propose evaluation cards as a structured approach to documenting measurement choices and limitations. Our work highlights the importance of developing a more diverse toolbox of evaluation techniques for machine learning in materials science, while offering insights that can inform evaluation practices in other scientific domains where similar challenges exist.
- Abstract(参考訳): 測定は科学における知識創造の基礎であり、発見の一貫性のある共有を可能にし、科学的な発見の基礎として機能する。
機械学習システムが科学分野を進化させるにつれ、これらのシステムをどのように効果的に評価するかという問題は、信頼性の高い進歩を保証するために重要である。
本稿では,科学における機械学習評価フレームワークの現状と今後の方向性について検討する。
統計的測定理論のレンズを用いて機械学習システムを評価するための広く適用可能なフレームワークについて,材料科学を事例・事例研究の第一の文脈として活用する。
我々は、構築の妥当性、データ品質の問題、メートル法設計の限界、評価フレームワークが実世界のパフォーマンスニーズを捉えない場合の幻想的な進歩につながるベンチマーク保守問題など、機械学習評価に共通する重要な課題を特定する。
従来のベンチマークと新しい評価手法の両方を調べることで、評価の選択が我々の測定だけでなく、研究の優先順位や科学的進歩も根本的に形作っていることを実証する。
これらの結果から,評価設計や報告において透明性が不可欠であることが明らかとなり,測定選択や制約を文書化するための構造化されたアプローチとして評価カードを提案する。
我々の研究は、材料科学における機械学習の評価技術のより多様なツールボックスを開発することの重要性を強調し、類似した課題が存在する他の科学領域における評価の実践を通知する洞察を提供する。
関連論文リスト
- Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Could Bibliometrics Reveal Top Science and Technology Achievements and Researchers? The Case for Evaluatology-based Science and Technology Evaluation [5.203905488272949]
評価学に基づく科学技術評価手法を提案する。
このアプローチの中心には、フィールドから派生した8つの重要なコンポーネントを含む拡張評価条件の概念がある。
チップ技術やオープンソースのような特定の分野において、すべての成果の進化と発展を正確に追跡できる完璧な評価モデルを構築します。
論文 参考訳(メタデータ) (2024-08-22T06:57:46Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - AI and Machine Learning for Next Generation Science Assessments [0.7416846035207727]
この章は、科学評価における人工知能(AI)と機械学習(ML)の変革的な役割に焦点を当てている。
論文は、概念学習からナレッジ・イン・ユースへのシフトを求めるK-12サイエンス教育フレームワークの議論から始まる。
本論文は,理科教育におけるMLベースアセスメントの現状の見直し,MLベース自動アセスメントにおける精度評価フレームワークの導入,今後の方向性と課題の議論という,3つの大きな目標を達成している。
論文 参考訳(メタデータ) (2024-04-23T01:39:20Z) - Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。
本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-19T13:38:26Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Physics-Informed Deep Learning: A Promising Technique for System
Reliability Assessment [1.847740135967371]
システム信頼性評価におけるディープラーニングの利用に関する限定的な研究がある。
本稿では,物理情報を用いた深層学習におけるフレームシステムの信頼性評価手法を提案する。
提案手法は、デュアルプロセッサ・コンピューティング・システムを含む3つの数値例によって実証される。
論文 参考訳(メタデータ) (2021-08-24T16:24:46Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。