論文の概要: Is machine learning good or bad for the natural sciences?
- arxiv url: http://arxiv.org/abs/2405.18095v2
- Date: Fri, 31 May 2024 22:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 11:33:55.629990
- Title: Is machine learning good or bad for the natural sciences?
- Title(参考訳): 機械学習は自然科学にとって良いのか悪いのか?
- Authors: David W. Hogg, Soledad Villar,
- Abstract要約: MLの導入によって、強い、望ましくない統計バイアスがもたらされる状況が示されている。
例えば、MLモデルを用いて物理(または第一原理)シミュレーションをエミュレートすると、検証バイアスが増幅される。
別の例として、データセットのラベル付けに表現的回帰を使用する場合、これらのラベルは下流のバイアスを取らなければ使用できない。
- 参考スコア(独自算出の注目度): 7.41244589428771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) methods are having a huge impact across all of the sciences. However, ML has a strong ontology - in which only the data exist - and a strong epistemology - in which a model is considered good if it performs well on held-out training data. These philosophies are in strong conflict with both standard practices and key philosophies in the natural sciences. Here we identify some locations for ML in the natural sciences at which the ontology and epistemology are valuable. For example, when an expressive machine learning model is used in a causal inference to represent the effects of confounders, such as foregrounds, backgrounds, or instrument calibration parameters, the model capacity and loose philosophy of ML can make the results more trustworthy. We also show that there are contexts in which the introduction of ML introduces strong, unwanted statistical biases. For one, when ML models are used to emulate physical (or first-principles) simulations, they amplify confirmation biases. For another, when expressive regressions are used to label datasets, those labels cannot be used in downstream joint or ensemble analyses without taking on uncontrolled biases. The question in the title is being asked of all of the natural sciences; that is, we are calling on the scientific communities to take a step back and consider the role and value of ML in their fields; the (partial) answers we give here come from the particular perspective of physics.
- Abstract(参考訳): 機械学習(ML)メソッドは、すべての科学に大きく影響しています。
しかし、MLには強力なオントロジー(データのみが存在する)と強力な認識論(モデルが保持されたトレーニングデータでうまく機能していると判断される)がある。
これらの哲学は、標準的な実践と自然科学における重要な哲学の両方と強く対立している。
ここでは、オントロジーと認識学が貴重である自然科学におけるMLのいくつかの場所を特定する。
例えば、前景や背景、楽器の校正パラメータといった共同創設者の影響を表現するために、表現力のある機械学習モデルが因果推論で使用される場合、モデルのキャパシティとMLの緩やかな哲学は、結果をより信頼できるものにします。
また、MLの導入が強い、望ましくない統計バイアスをもたらす状況があることも示している。
例えば、MLモデルを用いて物理(または第一原理)シミュレーションをエミュレートすると、検証バイアスが増幅される。
別の例として、データセットのラベル付けに表現的回帰を用いる場合、制御不能なバイアスを考慮せずに下流のジョイントやアンサンブル分析では、これらのラベルは使用できない。
このタイトルの問題は、すべての自然科学から求められている。つまり、我々は科学コミュニティに対して、その分野におけるMLの役割と価値について、一歩後退するよう呼びかけている。
関連論文リスト
- A Dynamic Model of Performative Human-ML Collaboration: Theory and Empirical Evidence [2.498836880652668]
本稿では,人間-機械学習協調システムにおける機械学習モデルの展開を考えるための新しい枠組みを提案する。
この動的プロセスの原理は,MLモデルとHuman+MLシステムが同じ性能を持つような,異なる安定点に収束できることを示す。
この結果から,人間による決定が議論の余地のない根拠の真理から逸脱する可能性のある状況において,MLモデルの展開が現実的な意味を持つことがわかった。
論文 参考訳(メタデータ) (2024-05-22T15:38:30Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Constructing Effective Machine Learning Models for the Sciences: A
Multidisciplinary Perspective [77.53142165205281]
線形回帰モデルに変数間の変換や相互作用を手動で追加することで、非線形解が必ずしも改善されないことを示す。
データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-11-21T17:48:44Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena [4.312340306206884]
解釈可能な機械学習は、モデルを論理的に分析して解釈を導出することで解を提供する。
現在のIML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。
本稿では、モデルだけでなく、その表現する現象を照らし出すIMLメソッドを定式化した「プロパティ記述子」を設計するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T10:13:21Z) - The Need for Interpretable Features: Motivation and Taxonomy [69.07189753428553]
我々は、「解釈可能な特徴」という用語は、機械学習の説明の有用性に影響を与える機能の全範囲を捉えるのに十分な具体的あるいは詳細ではないと主張している。
本稿では,(1)解釈可能な機能空間と呼ぶもの,あるいはドメインの専門家が現実の行動を取る上で有用な機能の現状に,より注意を払わなければならない,という3つの重要な教訓を論じる。
論文 参考訳(メタデータ) (2022-02-23T19:19:14Z) - A Review of Physics-based Machine Learning in Civil Engineering [0.0]
機械学習(ML)は多くの分野に適用可能な重要なツールである。
研究室でシミュレートされた土木工学アプリケーションのためのMLは、現実世界のテストでは失敗することが多い。
本稿では,物理に基づくMLの歴史と土木工学への応用について概説する。
論文 参考訳(メタデータ) (2021-10-09T15:50:21Z) - Intelligence plays dice: Stochasticity is essential for machine learning [15.245936854932374]
多くの分野の可視性は計算効率を得る方法であり、精度をトレードオフする必要がしばしばある。
本稿では、ランダム性は機械学習(ML)において根本的に異なる役割を担っており、知的システムの重要な要素である可能性が高いと論じる。
論文 参考訳(メタデータ) (2020-08-17T17:40:38Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z) - An Information-Theoretic Approach to Personalized Explainable Machine
Learning [92.53970625312665]
本稿では,予測とユーザ知識のための簡易確率モデルを提案する。
説明と予測の間の条件付き相互情報による説明の効果を定量化する。
論文 参考訳(メタデータ) (2020-03-01T13:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。