論文の概要: Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization
- arxiv url: http://arxiv.org/abs/2305.18437v3
- Date: Thu, 23 Nov 2023 01:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:02:48.842252
- Title: Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization
- Title(参考訳): 無損失可視化を用いた分類・混合データの説明可能な機械学習
- Authors: Boris Kovalerchuk, Elijah McCoy
- Abstract要約: 本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索による混合データ上でのMLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提案する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
- 参考スコア(独自算出の注目度): 3.4809730725241597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building accurate and interpretable Machine Learning (ML) models for
heterogeneous/mixed data is a long-standing challenge for algorithms designed
for numeric data. This work focuses on developing numeric coding schemes for
non-numeric attributes for ML algorithms to support accurate and explainable ML
models, methods for lossless visualization of n-D non-numeric categorical data
with visual rule discovery in these visualizations, and accurate and
explainable ML models for categorical data. This study proposes a
classification of mixed data types and analyzes their important role in Machine
Learning. It presents a toolkit for enforcing interpretability of all internal
operations of ML algorithms on mixed data with a visual data exploration on
mixed data. A new Sequential Rule Generation (SRG) algorithm for explainable
rule generation with categorical data is proposed and successfully evaluated in
multiple computational experiments. This work is one of the steps to the full
scope ML algorithms for mixed data supported by lossless visualization of n-D
data in General Line Coordinates beyond Parallel Coordinates.
- Abstract(参考訳): 不均一/混合データのための正確で解釈可能な機械学習(ML)モデルの構築は、数値データ用に設計されたアルゴリズムの長年にわたる課題である。
この研究は、正確で説明可能なMLモデルをサポートするMLアルゴリズムの非数値属性のための数値符号化スキーム、これらの視覚化における視覚的ルール発見を伴うn-D非数値分類データの無意味な可視化方法、そして分類データのための正確で説明可能なMLモデルの開発に焦点を当てる。
本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索により、MLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提供する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
この研究は、Parallel Coordinatesを超えたGeneral Line Coordinatesにおけるn-Dデータのロスレス可視化をサポートする混合データのための全スコープMLアルゴリズムのステップの1つである。
関連論文リスト
- Minimally Informed Linear Discriminant Analysis: training an LDA model
with unlabelled data [51.673443581397954]
本研究では,LDAモデルからの正確な射影ベクトルを,ラベルのないデータに基づいて計算可能であることを示す。
MILDA投影ベクトルはLDAに匹敵する計算コストで閉じた形で計算可能であることを示す。
論文 参考訳(メタデータ) (2023-10-17T09:50:31Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery [7.005458308454871]
不均一/混合データのための機械学習アルゴリズムの開発は、長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データには適用できない。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
論文 参考訳(メタデータ) (2022-06-13T21:14:58Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-01-31T17:46:19Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - An Online Learning Algorithm for a Neuro-Fuzzy Classifier with
Mixed-Attribute Data [9.061408029414455]
General Fuzzy min-max Neural Network (GFMMNN) は、データ分類のための効率的な神経ファジィシステムの一つである。
本稿ではGFMMNNのための拡張オンライン学習アルゴリズムを提案する。
提案手法は連続的特徴と分類的特徴の両方でデータセットを処理できる。
論文 参考訳(メタデータ) (2020-09-30T13:45:36Z) - Machine Learning Pipeline for Pulsar Star Dataset [58.720142291102135]
この作業は、最も一般的な機械学習(ML)アルゴリズムをまとめるものだ。
目的は、不均衡なデータの集合から得られた結果のレベルの比較を行うことである。
論文 参考訳(メタデータ) (2020-05-03T23:35:44Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。