論文の概要: The Significance of Data Abstraction Methods in Machine Learning
Classification Processes for Critical Decision-Making
- arxiv url: http://arxiv.org/abs/2401.11044v1
- Date: Fri, 19 Jan 2024 22:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:18:17.323061
- Title: The Significance of Data Abstraction Methods in Machine Learning
Classification Processes for Critical Decision-Making
- Title(参考訳): 批判的意思決定のための機械学習分類過程におけるデータ抽象化手法の意義
- Authors: Karol Capa{\l}a, Paulina Tworek, Jose Sousa
- Abstract要約: サNDA(Small and Incomplete dataset Analyser)は、そのような領域で分類を行う能力を高めるために提案されている。
本稿は,SaNDAの分類プロセスにおいて重要な,抽象化と呼ばれる列指向のデータ変換に焦点を当てる。
類似した条件下では精度が著しく低下するランダムフォレストとは異なり、データセットの半分が失われても常に高い精度を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applicability of widely adopted machine learning (ML) methods to
classification is circumscribed by the imperatives of explicability and
uncertainty, particularly evident in domains such as healthcare, behavioural
sciences, and finances, wherein accountability assumes priority. Recently,
Small and Incomplete Dataset Analyser (SaNDA) has been proposed to enhance the
ability to perform classification in such domains, by developing a data
abstraction protocol using a ROC curve-based method. This paper focuses on
column-wise data transformations called abstractions, which are crucial for
SaNDA's classification process and explores alternative abstractions protocols,
such as constant binning and quantiles. The best-performing methods have been
compared against Random Forest as a baseline for explainable methods. The
results suggests that SaNDA can be a viable substitute for Random Forest when
data is incomplete, even with minimal missing values. It consistently maintains
high accuracy even when half of the dataset is missing, unlike Random Forest
which experiences a significant decline in accuracy under similar conditions.
- Abstract(参考訳): 広く採用されている機械学習(ML)手法の分類に適用性は、説明可能性と不確実性の命令によって、特に医療、行動科学、財務などの分野において説明責任が優先される。
近年,roc曲線に基づくデータ抽象化プロトコルを開発することにより,このような領域で分類を行う能力を高めるために,小型で不完全なデータセット解析装置 (sanda) が提案されている。
本稿では,sandaの分類プロセスにおいて不可欠である,抽象と呼ばれる列指向のデータ変換に注目し,定数バイナリやクォンタイルなどの代替抽象化プロトコルについて検討する。
もっとも優れた手法は、説明可能な方法のベースラインとしてランダムフォレストと比較されている。
その結果,データ不足が最小限の値であっても,SNDAはデータが不完全である場合,ランダムフォレストの代替となる可能性が示唆された。
類似した条件下では精度が著しく低下するランダムフォレストとは異なり、データセットの半分が失われても常に高い精度を維持している。
関連論文リスト
- Decision-Focused Uncertainty Quantification [32.93992587758183]
我々は、下流決定損失関数を考慮した予測セットを生成するために、共形予測に基づくフレームワークを開発する。
本手法は皮膚疾患の階層構造を効果的に取り入れた医療診断における実世界のユースケースを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:22:09Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - RISE: Robust Individualized Decision Learning with Sensitive Variables [1.5293427903448025]
素直なベースラインは、決定規則を学習する際の繊細な変数を無視し、重大な不確実性と偏見をもたらすことである。
本稿では、オフライントレーニング中に機密変数を組み込む決定学習フレームワークを提案するが、モデル展開中に学習された決定ルールの入力には含まない。
論文 参考訳(メタデータ) (2022-11-12T04:31:38Z) - Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。
我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。
本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (2022-07-23T01:06:34Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。