論文の概要: Interpretable Machine Learning for Discovery: Statistical Challenges \&
Opportunities
- arxiv url: http://arxiv.org/abs/2308.01475v1
- Date: Wed, 2 Aug 2023 23:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:36:10.770226
- Title: Interpretable Machine Learning for Discovery: Statistical Challenges \&
Opportunities
- Title(参考訳): 発見のための解釈可能な機械学習: 統計的課題と機会
- Authors: Genevera I. Allen, Luqin Gan, Lili Zheng
- Abstract要約: 我々は、解釈可能な機械学習の分野について議論し、レビューする。
解釈可能な機械学習を用いて行うことができる発見の種類について概説する。
我々は、これらの発見をデータ駆動方式でどのように検証するかという大きな課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New technologies have led to vast troves of large and complex datasets across
many scientific domains and industries. People routinely use machine learning
techniques to not only process, visualize, and make predictions from this big
data, but also to make data-driven discoveries. These discoveries are often
made using Interpretable Machine Learning, or machine learning models and
techniques that yield human understandable insights. In this paper, we discuss
and review the field of interpretable machine learning, focusing especially on
the techniques as they are often employed to generate new knowledge or make
discoveries from large data sets. We outline the types of discoveries that can
be made using Interpretable Machine Learning in both supervised and
unsupervised settings. Additionally, we focus on the grand challenge of how to
validate these discoveries in a data-driven manner, which promotes trust in
machine learning systems and reproducibility in science. We discuss validation
from both a practical perspective, reviewing approaches based on data-splitting
and stability, as well as from a theoretical perspective, reviewing statistical
results on model selection consistency and uncertainty quantification via
statistical inference. Finally, we conclude by highlighting open challenges in
using interpretable machine learning techniques to make discoveries, including
gaps between theory and practice for validating data-driven-discoveries.
- Abstract(参考訳): 新しい技術は、多くの科学分野や産業にまたがる大規模で複雑なデータセットを生み出した。
人々は機械学習のテクニックを、このビッグデータの処理、可視化、予測だけでなく、データ駆動的な発見にも常用します。
これらの発見はしばしば、解釈可能な機械学習、または人間の理解可能な洞察をもたらす機械学習モデルと技術を用いて行われる。
本稿では,解釈可能な機械学習の分野について論じ,特に新たな知識の生成や大規模データセットからの発見によく使用される技術に注目した。
教師なしと教師なしの両方の設定で、Interpretable Machine Learningを使ってできる発見のタイプを概説する。
さらに、これらの発見をデータ駆動方式で検証する方法に関する大きな課題に注目し、機械学習システムへの信頼と科学における再現性を促進する。
本研究では,データ分割と安定性に基づくアプローチをレビューし,理論的な観点からモデル選択一貫性と不確かさの定量化に関する統計的結果のレビューを行った。
最後に,データ駆動型発見の検証のための理論と実践のギャップを含む,解釈可能な機械学習技術を用いた発見の難しさを強調する。
関連論文リスト
- Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。
この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文 参考訳(メタデータ) (2024-08-01T21:37:10Z) - A spectrum of physics-informed Gaussian processes for regression in
engineering [0.0]
センサとデータ全般の可用性は向上していますが、純粋なデータ駆動アプローチから多くのサービス内エンジニアリングシステムや構造を完全に特徴づけることはできません。
本稿では、限られたデータで予測モデルを作成する能力を高めるために、機械学習技術と物理に基づく推論の組み合わせを追求する。
論文 参考訳(メタデータ) (2023-09-19T14:39:03Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - Bridging Machine Learning and Sciences: Opportunities and Challenges [0.0]
機械学習の科学への応用は、近年、エキサイティングな進歩を遂げている。
近年,ディープ・ニューラルネットを用いたアウト・オブ・ディストリビューション検出は高次元データにおいて大きな進歩を遂げている。
我々は、データ普遍性、実験プロトコル、モデル堅牢性など、それらの適用可能性について批判的に考察する。
論文 参考訳(メタデータ) (2022-10-24T17:54:46Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Knowledge as Invariance -- History and Perspectives of
Knowledge-augmented Machine Learning [69.99522650448213]
機械学習の研究は転換点にある。
研究の関心は、高度にパラメータ化されたモデルのパフォーマンス向上から、非常に具体的なタスクへとシフトしている。
このホワイトペーパーは、機械学習研究におけるこの新興分野の紹介と議論を提供する。
論文 参考訳(メタデータ) (2020-12-21T15:07:19Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。