論文の概要: The Significance of Data Abstraction Methods in Machine Learning
Classification Processes for Critical Decision-Making
- arxiv url: http://arxiv.org/abs/2401.11044v1
- Date: Fri, 19 Jan 2024 22:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:18:17.323061
- Title: The Significance of Data Abstraction Methods in Machine Learning
Classification Processes for Critical Decision-Making
- Title(参考訳): 批判的意思決定のための機械学習分類過程におけるデータ抽象化手法の意義
- Authors: Karol Capa{\l}a, Paulina Tworek, Jose Sousa
- Abstract要約: サNDA(Small and Incomplete dataset Analyser)は、そのような領域で分類を行う能力を高めるために提案されている。
本稿は,SaNDAの分類プロセスにおいて重要な,抽象化と呼ばれる列指向のデータ変換に焦点を当てる。
類似した条件下では精度が著しく低下するランダムフォレストとは異なり、データセットの半分が失われても常に高い精度を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applicability of widely adopted machine learning (ML) methods to
classification is circumscribed by the imperatives of explicability and
uncertainty, particularly evident in domains such as healthcare, behavioural
sciences, and finances, wherein accountability assumes priority. Recently,
Small and Incomplete Dataset Analyser (SaNDA) has been proposed to enhance the
ability to perform classification in such domains, by developing a data
abstraction protocol using a ROC curve-based method. This paper focuses on
column-wise data transformations called abstractions, which are crucial for
SaNDA's classification process and explores alternative abstractions protocols,
such as constant binning and quantiles. The best-performing methods have been
compared against Random Forest as a baseline for explainable methods. The
results suggests that SaNDA can be a viable substitute for Random Forest when
data is incomplete, even with minimal missing values. It consistently maintains
high accuracy even when half of the dataset is missing, unlike Random Forest
which experiences a significant decline in accuracy under similar conditions.
- Abstract(参考訳): 広く採用されている機械学習(ML)手法の分類に適用性は、説明可能性と不確実性の命令によって、特に医療、行動科学、財務などの分野において説明責任が優先される。
近年,roc曲線に基づくデータ抽象化プロトコルを開発することにより,このような領域で分類を行う能力を高めるために,小型で不完全なデータセット解析装置 (sanda) が提案されている。
本稿では,sandaの分類プロセスにおいて不可欠である,抽象と呼ばれる列指向のデータ変換に注目し,定数バイナリやクォンタイルなどの代替抽象化プロトコルについて検討する。
もっとも優れた手法は、説明可能な方法のベースラインとしてランダムフォレストと比較されている。
その結果,データ不足が最小限の値であっても,SNDAはデータが不完全である場合,ランダムフォレストの代替となる可能性が示唆された。
類似した条件下では精度が著しく低下するランダムフォレストとは異なり、データセットの半分が失われても常に高い精度を維持している。
関連論文リスト
- Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Pixel-wise Gradient Uncertainty for Convolutional Neural Networks
applied to Out-of-Distribution Segmentation [0.43512163406552007]
本稿では,推定時に効率よく計算できる画素単位の損失勾配から不確実点を求める手法を提案する。
本実験は,提案手法が誤った画素分類を識別し,無視可能な計算オーバーヘッドで予測品質を推定する能力を示す。
論文 参考訳(メタデータ) (2023-03-13T08:37:59Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Know Your Limits: Uncertainty Estimation with ReLU Classifiers Fails at
Reliable OOD Detection [0.0]
本稿では, 実験結果について理論的に説明し, 合成データから考察する。
このような技術は、分類設定でOODサンプルを確実に識別できないことを証明します。
論文 参考訳(メタデータ) (2020-12-09T21:35:55Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。