論文の概要: New Metric Formulas that Include Measurement Errors in Machine Learning
for Natural Sciences
- arxiv url: http://arxiv.org/abs/2209.15588v1
- Date: Fri, 30 Sep 2022 17:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:54:30.736347
- Title: New Metric Formulas that Include Measurement Errors in Machine Learning
for Natural Sciences
- Title(参考訳): 自然科学のための機械学習における測定誤差を含む新しい計量公式
- Authors: Umberto Michelucci and Francesca Venturini
- Abstract要約: 機械学習の物理学問題への応用は、科学文献に広く見られる。
残念なことに、機械学習モデルのトレーニングに使用されるデータの計測エラーはほとんど無視されている。
本稿では、対象変数の測定誤差を考慮に入れた一般的なメトリクスの式を導出することにより、この欠陥に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The application of machine learning to physics problems is widely found in
the scientific literature. Both regression and classification problems are
addressed by a large array of techniques that involve learning algorithms.
Unfortunately, the measurement errors of the data used to train machine
learning models are almost always neglected. This leads to estimations of the
performance of the models (and thus their generalisation power) that is too
optimistic since it is always assumed that the target variables (what one wants
to predict) are correct. In physics, this is a dramatic deficiency as it can
lead to the belief that theories or patterns exist where, in reality, they do
not. This paper addresses this deficiency by deriving formulas for commonly
used metrics (both for regression and classification problems) that take into
account measurement errors of target variables. The new formulas give an
estimation of the metrics which is always more pessimistic than what is
obtained with the classical ones, not taking into account measurement errors.
The formulas given here are of general validity, completely model-independent,
and can be applied without limitations. Thus, with statistical confidence, one
can analyze the existence of relationships when dealing with measurements with
errors of any kind. The formulas have wide applicability outside physics and
can be used in all problems where measurement errors are relevant to the
conclusions of studies.
- Abstract(参考訳): 機械学習の物理学問題への応用は、科学文献に広く見られる。
回帰問題と分類問題は、学習アルゴリズムを含む多数のテクニックによって対処される。
残念ながら、機械学習モデルのトレーニングに使用されるデータの計測エラーはほとんど無視されている。
これは、対象変数(予測したいもの)が正しいと常に仮定されているため、あまりに楽観的すぎるモデル(そしてそれらの一般化力)のパフォーマンスの推定に繋がる。
物理学では、これは劇的な不足であり、理論やパターンが実在し、実際にはそうではないという信念に繋がる可能性がある。
本稿では,対象変数の測定誤差を考慮した一般的なメトリクス(回帰問題と分類問題の両方)の公式を導出することにより,この不足に対処する。
この新しい公式は、測定誤差を考慮せず、古典的手法で得られるものよりも常に悲観的であるメトリクスの推定を与える。
ここで与えられる公式は一般に有効であり、完全にモデル非依存であり、制限なく適用できる。
したがって、統計的信頼性により、あらゆる種類の誤差で測定を行う際に、関係の存在を分析することができる。
公式は物理学以外でも広く適用可能であり、測定誤差が研究の結論に関係しているすべての問題に利用できる。
関連論文リスト
- Mechanism learning: Reverse causal inference in the presence of multiple unknown confounding through front-door causal bootstrapping [0.8901073744693314]
機械学習(ML)予測モデルの最大の制限は、変数間の因果関係ではなく、関連性を取り戻すことである。
本稿では,前向きの因果ブートストラップを用いて観測データを分解する機構学習を提案する。
提案手法は,完全合成,半合成,実世界のデータセットを用いて,信頼性,不偏性,因果的ML予測器を検出できることを実証する。
論文 参考訳(メタデータ) (2024-10-26T03:34:55Z) - Tempered Calculus for ML: Application to Hyperbolic Model Embedding [70.61101116794549]
MLで使用されるほとんどの数学的歪みは、本質的に自然界において積分的である。
本稿では,これらの歪みを改善するための基礎的理論とツールを公表し,機械学習の要件に対処する。
我々は、最近MLで注目を集めた問題、すなわち、ハイパーボリック埋め込みを「チープ」で正確なエンコーディングで適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-06T17:21:06Z) - Misclassification in Automated Content Analysis Causes Bias in
Regression. Can We Fix It? Yes We Can! [0.30693357740321775]
我々は,コミュニケーション学者が誤分類バイアスをほとんど無視していることを,体系的な文献レビューで示している。
既存の統計手法では、人間のアノテータによって作成されたような「金の標準」検証データを使って誤分類バイアスを補正することができる。
我々は、Rパッケージの誤分類モデルの設計と実装を含む、そのような手法を導入し、テストする。
論文 参考訳(メタデータ) (2023-07-12T23:03:55Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z) - Rethinking Knowledge Graph Evaluation Under the Open-World Assumption [65.20527611711697]
ほとんどの知識グラフ(KG)は不完全であり、知識グラフを自動補完する重要な研究トピックの動機となっている。
すべての未知の三つ子を偽として扱うことは、閉世界仮定(close-world assumption)と呼ばれる。
本稿では,KGCの評価を,より現実的な条件,すなわちオープンワールドの仮定の下で研究する。
論文 参考訳(メタデータ) (2022-09-19T09:01:29Z) - What can we Learn by Predicting Accuracy? [0.0]
我々は,実験から知識を抽出し,その逆の方法でこの問題にアプローチすることを提案する。
このデータ駆動のアプローチは、データから一般的な法則を発見するために物理学で使われるものに似ている。
260以上のデータセットで発見された公式はピアソン相関が0.96、r2が0.93である。
論文 参考訳(メタデータ) (2022-08-02T10:58:17Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Why Calibration Error is Wrong Given Model Uncertainty: Using Posterior
Predictive Checks with Deep Learning [0.0]
キャリブレーション誤差とその変種が、モデルの不確実性によってほとんど常に正しくないことを示す。
このミスがいかにして悪いモデルへの信頼と良いモデルへの信頼につながるかを示します。
論文 参考訳(メタデータ) (2021-12-02T18:26:30Z) - Hessian-based toolbox for reliable and interpretable machine learning in
physics [58.720142291102135]
本稿では,モデルアーキテクチャの解釈可能性と信頼性,外挿を行うためのツールボックスを提案する。
与えられたテストポイントでの予測に対する入力データの影響、モデル予測の不確実性の推定、およびモデル予測の不可知スコアを提供する。
我々の研究は、物理学やより一般的には科学に適用されたMLにおける解釈可能性と信頼性の方法の体系的利用への道を開く。
論文 参考訳(メタデータ) (2021-08-04T16:32:59Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。