論文の概要: Metrics for Benchmarking and Uncertainty Quantification: Quality,
Applicability, and a Path to Best Practices for Machine Learning in Chemistry
- arxiv url: http://arxiv.org/abs/2010.00110v2
- Date: Fri, 22 Jan 2021 22:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:29:38.439153
- Title: Metrics for Benchmarking and Uncertainty Quantification: Quality,
Applicability, and a Path to Best Practices for Machine Learning in Chemistry
- Title(参考訳): ベンチマークと不確実性定量化のためのメトリクス:化学における機械学習のベストプラクティスへの道
- Authors: Gaurav Vishwakarma, Aditya Sonpal, Johannes Hachmann
- Abstract要約: 本総説は, 化学・材料分野における機械学習ベンチマークの実施に際し, 2つの課題に留意することを目的としている。
化学者は統計学における限られた訓練しか持たないため、しばしば見過ごされるか、未熟なトピックである。
これらの指標は、異なるモデルのパフォーマンスを比較する上でも重要であり、したがって化学における機械学習の適用を成功させるためのガイドラインとベストプラクティスを開発する上でも重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This review aims to draw attention to two issues of concern when we set out
to make machine learning work in the chemical and materials domain, i.e.,
statistical loss function metrics for the validation and benchmarking of
data-derived models, and the uncertainty quantification of predictions made by
them. They are often overlooked or underappreciated topics as chemists
typically only have limited training in statistics. Aside from helping to
assess the quality, reliability, and applicability of a given model, these
metrics are also key to comparing the performance of different models and thus
for developing guidelines and best practices for the successful application of
machine learning in chemistry.
- Abstract(参考訳): 本総説は, 化学・材料分野における機械学習の動作, すなわち, データ由来モデルの検証とベンチマークのための統計損失関数メトリクス, およびそれらによる予測の不確かさの定量化について, 2つの問題に注意を向けるものである。
化学者は統計学の限られた訓練しか受けていないため、しばしば見過ごされ、過小評価される。
与えられたモデルの品質、信頼性、適用性を評価するのに役立つだけでなく、これらの指標は異なるモデルのパフォーマンスを比較する上でも重要であり、したがって、化学に機械学習をうまく適用するためのガイドラインとベストプラクティスを開発する上でも重要である。
関連論文リスト
- Causal Inference Tools for a Better Evaluation of Machine Learning [0.0]
本稿では、通常最小方形回帰(OLS)、可変解析(ANOVA)、ロジスティック回帰(ロジスティック回帰)などの重要な統計手法を紹介する。
この文書は研究者や実践者のガイドとして機能し、これらのテクニックがモデル行動、パフォーマンス、公平性に対する深い洞察を提供する方法について詳述している。
論文 参考訳(メタデータ) (2024-10-02T10:03:29Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。
これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。
分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Model Comparison and Calibration Assessment: User Guide for Consistent
Scoring Functions in Machine Learning and Actuarial Practice [0.0]
本発明のユーザガイドは、モデルの校正や妥当性を評価する統計的手法を再検討し、明確化する。
主に既存の成果とベストプラクティスの教育的な提示に焦点を当てている。
結果は、労働者の報酬と顧客の混乱に関する2つの実データケーススタディに伴って説明される。
論文 参考訳(メタデータ) (2022-02-25T15:52:19Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。