論文の概要: Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery
- arxiv url: http://arxiv.org/abs/2206.06476v1
- Date: Mon, 13 Jun 2022 21:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:00:05.896242
- Title: Explainable Mixed Data Representation and Lossless Visualization Toolkit
for Knowledge Discovery
- Title(参考訳): 知識発見のための説明可能な混合データ表現とロスレス可視化ツールキット
- Authors: Boris Kovalerchuk, Elijah McCoy
- Abstract要約: 不均一/混合データのための機械学習アルゴリズムの開発は、長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データには適用できない。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
- 参考スコア(独自算出の注目度): 7.005458308454871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing Machine Learning (ML) algorithms for heterogeneous/mixed data is a
longstanding problem. Many ML algorithms are not applicable to mixed data,
which include numeric and non-numeric data, text, graphs and so on to generate
interpretable models. Another longstanding problem is developing algorithms for
lossless visualization of multidimensional mixed data. The further progress in
ML heavily depends on success interpretable ML algorithms for mixed data and
lossless interpretable visualization of multidimensional data. The later allows
developing interpretable ML models using visual knowledge discovery by
end-users, who can bring valuable domain knowledge which is absent in the
training data. The challenges for mixed data include: (1) generating numeric
coding schemes for non-numeric attributes for numeric ML algorithms to provide
accurate and interpretable ML models, (2) generating methods for lossless
visualization of n-D non-numeric data and visual rule discovery in these
visualizations. This paper presents a classification of mixed data types,
analyzes their importance for ML and present the developed experimental toolkit
to deal with mixed data. It combines the Data Types Editor, VisCanvas data
visualization and rule discovery system which is available on GitHub.
- Abstract(参考訳): 不均一/混合データのための機械学習(ml)アルゴリズムの開発は長年の課題である。
多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データに適用できず、解釈可能なモデルを生成する。
もう1つの長期的な問題は、多次元混合データのロスレス可視化のためのアルゴリズムの開発である。
MLのさらなる進歩は、混合データに対する解釈可能なMLアルゴリズムの成功と多次元データのロスレス解釈可能な可視化に大きく依存している。
これにより、エンドユーザによる視覚的知識発見を使用して解釈可能なMLモデルの開発が可能になる。
混合データに対する課題は,(1) 数値MLアルゴリズムの非数値属性の数値符号化スキームを生成し,正確かつ解釈可能なMLモデルを提供すること,(2) n-D の非数値データのロスレス可視化のための方法,およびこれらの視覚化における視覚ルールの発見である。
本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
データ型エディタ、VisCanvasデータ可視化、ルール発見システムを組み合わせたもので、GitHubで公開されている。
関連論文リスト
- Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Medical artificial intelligence toolbox (MAIT): an explainable machine learning framework for binary classification, survival modelling, and regression analyses [0.0]
Medical Artificial Intelligence Toolbox (MAIT)は、バイナリ分類、回帰、サバイバルモデルの開発と評価のための、説明可能なオープンソースのPythonパイプラインである。
MAITは、レポートの透明性を促進しながら、重要な課題(例えば、高次元性、クラス不均衡、混合変数型、欠如)に対処する。
医療研究におけるMLモデルの実装と解釈を改善するために、MAITをどのように使用できるかを示すために、4つのオープンアクセスデータセットを使用して、GitHubで詳細なチュートリアルを提供している。
論文 参考訳(メタデータ) (2025-01-08T14:51:36Z) - Explainable Machine Learning for Categorical and Mixed Data with
Lossless Visualization [3.4809730725241597]
本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。
混合データ上での視覚的データ探索による混合データ上でのMLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提案する。
カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
論文 参考訳(メタデータ) (2023-05-29T00:41:32Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - PyHard: a novel tool for generating hardness embeddings to support
data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。
ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。
我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文 参考訳(メタデータ) (2021-09-29T14:08:26Z) - An Introduction to Robust Graph Convolutional Networks [71.68610791161355]
本論文では, 誤りのある単一ビューあるいは複数ビューのデータに対して, 新たなロバストグラフ畳み込みニューラルネットワークを提案する。
従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付けおよび処理します。
論文 参考訳(メタデータ) (2021-03-27T04:47:59Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Visualisation and knowledge discovery from interpretable models [0.0]
欠落した値も扱える本質的な解釈可能なモデルをいくつか紹介する。
合成データセットと実世界のデータセットでアルゴリズムを実証した。
論文 参考訳(メタデータ) (2020-05-07T17:37:06Z) - Data Augmentation for Histopathological Images Based on
Gaussian-Laplacian Pyramid Blending [59.91656519028334]
データ不均衡は、機械学習(ML)アルゴリズムに影響を及ぼす主要な問題である。
本稿では、HIデータセットを増大させるだけでなく、患者間の変動を分散させる新しいアプローチを提案する。
BreakHisデータセットの実験結果から、文献で示されたDA手法の大多数は、有望な利得を示している。
論文 参考訳(メタデータ) (2020-01-31T22:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。