論文の概要: Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery
- arxiv url: http://arxiv.org/abs/2206.06476v1
- Date: Mon, 13 Jun 2022 21:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:00:05.896242
- Title: Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery
- Title(参考訳): 知識発見のための説明可能な混合データ表現とロスレス可視化ツールキット
- Authors: Boris Kovalerchuk, Elijah McCoy
- Abstract要約: 不均一/混合データのための機械学習アルゴリズムの開発は、長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データには適用できない。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
- 参考スコア(独自算出の注目度): 7.005458308454871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing Machine Learning (ML) algorithms for heterogeneous/mixed data is a
longstanding problem. Many ML algorithms are not applicable to mixed data,
which include numeric and non-numeric data, text, graphs and so on to generate
interpretable models. Another longstanding problem is developing algorithms for
lossless visualization of multidimensional mixed data. The further progress in
ML heavily depends on success interpretable ML algorithms for mixed data and
lossless interpretable visualization of multidimensional data. The later allows
developing interpretable ML models using visual knowledge discovery by
end-users, who can bring valuable domain knowledge which is absent in the
training data. The challenges for mixed data include: (1) generating numeric
coding schemes for non-numeric attributes for numeric ML algorithms to provide
accurate and interpretable ML models, (2) generating methods for lossless
visualization of n-D non-numeric data and visual rule discovery in these
visualizations. This paper presents a classification of mixed data types,
analyzes their importance for ML and present the developed experimental toolkit
to deal with mixed data. It combines the Data Types Editor, VisCanvas data
visualization and rule discovery system which is available on GitHub.
- Abstract(参考訳): 不均一/混合データのための機械学習(ml)アルゴリズムの開発は長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データに適用できず、解釈可能なモデルを生成する。
もう1つの長期的な問題は、多次元混合データのロスレス可視化のためのアルゴリズムの開発である。
MLのさらなる進歩は、混合データに対する解釈可能なMLアルゴリズムの成功と多次元データのロスレス解釈可能な可視化に大きく依存している。
これにより、エンドユーザによる視覚的知識発見を使用して解釈可能なMLモデルの開発が可能になる。
混合データに対する課題は,(1) 数値MLアルゴリズムの非数値属性の数値符号化スキームを生成し,正確かつ解釈可能なMLモデルを提供すること,(2) n-D の非数値データのロスレス可視化のための方法,およびこれらの視覚化における視覚ルールの発見である。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
データ型エディタ、VisCanvasデータ可視化、ルール発見システムを組み合わせたもので、GitHubで公開されている。
関連論文リスト
- Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization [3.4809730725241597]
本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索による混合データ上でのMLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提案する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
論文 参考訳(メタデータ) (2023-05-29T00:41:32Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - PyHard: a novel tool for generating hardness embeddings to support
data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。
ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。
我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文 参考訳(メタデータ) (2021-09-29T14:08:26Z) - An Introduction to Robust Graph Convolutional Networks [71.68610791161355]
本論文では, 誤りのある単一ビューあるいは複数ビューのデータに対して, 新たなロバストグラフ畳み込みニューラルネットワークを提案する。
従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付けおよび処理します。
論文 参考訳(メタデータ) (2021-03-27T04:47:59Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Visualisation and knowledge discovery from interpretable models [0.0]
欠落した値も扱える本質的な解釈可能なモデルをいくつか紹介する。
合成データセットと実世界のデータセットでアルゴリズムを実証した。
論文 参考訳(メタデータ) (2020-05-07T17:37:06Z) - Injective Domain Knowledge in Neural Networks for Transprecision
Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。
その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文 参考訳(メタデータ) (2020-02-24T12:58:56Z) - Data Augmentation for Histopathological Images Based on
Gaussian-Laplacian Pyramid Blending [59.91656519028334]
データ不均衡は、機械学習(ML)アルゴリズムに影響を及ぼす主要な問題である。
本稿では、HIデータセットを増大させるだけでなく、患者間の変動を分散させる新しいアプローチを提案する。
BreakHisデータセットの実験結果から、文献で示されたDA手法の大多数は、有望な利得を示している。
論文 参考訳(メタデータ) (2020-01-31T22:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。