論文の概要: Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization
- arxiv url: http://arxiv.org/abs/2305.18437v1
- Date: Mon, 29 May 2023 00:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:03:56.840322
- Title: Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization
- Title(参考訳): 無損失可視化を用いた分類・混合データの説明可能な機械学習
- Authors: Boris Kovalerchuk, Elijah McCoy
- Abstract要約: 本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索による混合データ上でのMLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提案する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
- 参考スコア(独自算出の注目度): 7.005458308454871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building accurate and interpretable Machine Learning (ML) models for
heterogeneous/mixed data is a long-standing challenge for algorithms designed
for numeric data. This work focuses on developing numeric coding schemes for
non-numeric attributes for ML algorithms to support accurate and explainable ML
models, methods for lossless visualization of n-D non-numeric categorical data
with visual rule discovery in these visualizations, and accurate and
explainable ML models for categorical data. This study proposes a
classification of mixed data types and analyzes their important role in Machine
Learning. It presents a toolkit for enforcing interpretability of all internal
operations of ML algorithms on mixed data with a visual data exploration on
mixed data. A new Sequential Rule Generation (SRG) algorithm for explainable
rule generation with categorical data is proposed and successfully evaluated in
multiple computational experiments. This work is one of the steps to the full
scope ML algorithms for mixed data supported by lossless visualization of n-D
data in General Line Coordinates beyond Parallel Coordinates.
- Abstract(参考訳): 不均一/混合データのための正確で解釈可能な機械学習(ML)モデルの構築は、数値データ用に設計されたアルゴリズムの長年にわたる課題である。
この研究は、正確で説明可能なMLモデルをサポートするMLアルゴリズムの非数値属性のための数値符号化スキーム、これらの視覚化における視覚的ルール発見を伴うn-D非数値分類データの無意味な可視化方法、そして分類データのための正確で説明可能なMLモデルの開発に焦点を当てる。
本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索により、MLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提供する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
この研究は、Parallel Coordinatesを超えたGeneral Line Coordinatesにおけるn-Dデータのロスレス可視化をサポートする混合データのための全スコープMLアルゴリズムのステップの1つである。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Minimally Informed Linear Discriminant Analysis: training an LDA model
with unlabelled data [51.673443581397954]
本研究では,LDAモデルからの正確な射影ベクトルを,ラベルのないデータに基づいて計算可能であることを示す。
MILDA投影ベクトルはLDAに匹敵する計算コストで閉じた形で計算可能であることを示す。
論文 参考訳(メタデータ) (2023-10-17T09:50:31Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery [7.005458308454871]
不均一/混合データのための機械学習アルゴリズムの開発は、長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データには適用できない。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
論文 参考訳(メタデータ) (2022-06-13T21:14:58Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - Machine Learning Pipeline for Pulsar Star Dataset [58.720142291102135]
この作業は、最も一般的な機械学習(ML)アルゴリズムをまとめるものだ。
目的は、不均衡なデータの集合から得られた結果のレベルの比較を行うことである。
論文 参考訳(メタデータ) (2020-05-03T23:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。