論文の概要: Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning
- arxiv url: http://arxiv.org/abs/2107.04971v1
- Date: Sun, 11 Jul 2021 05:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:17:02.840282
- Title: Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning
- Title(参考訳): 対話型可視化と解釈可能な機械学習を用いたセルフサービスデータ分類
- Authors: Sridevi Narayana Wagle, Boris Kovalerchuk
- Abstract要約: Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
- 参考スコア(独自算出の注目度): 9.13755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning algorithms often produce models considered as complex
black-box models by both end users and developers. They fail to explain the
model in terms of the domain they are designed for. The proposed Iterative
Visual Logical Classifier (IVLC) is an interpretable machine learning algorithm
that allows end users to design a model and classify data with more confidence
and without having to compromise on the accuracy. Such technique is especially
helpful when dealing with sensitive and crucial data like cancer data in the
medical domain with high cost of errors. With the help of the proposed
interactive and lossless multidimensional visualization, end users can identify
the pattern in the data based on which they can make explainable decisions.
Such options would not be possible in black box machine learning methodologies.
The interpretable IVLC algorithm is supported by the Interactive Shifted Paired
Coordinates Software System (SPCVis). It is a lossless multidimensional data
visualization system with user interactive features. The interactive approach
provides flexibility to the end user to perform data classification as
self-service without having to rely on a machine learning expert. Interactive
pattern discovery becomes challenging while dealing with large data sets with
hundreds of dimensions/features. To overcome this problem, this chapter
proposes an automated classification approach combined with new Coordinate
Order Optimizer (COO) algorithm and a Genetic algorithm. The COO algorithm
automatically generates the coordinate pair sequences that best represent the
data separation and the genetic algorithm helps optimizing the proposed IVLC
algorithm by automatically generating the areas for data classification. The
feasibility of the approach is shown by experiments on benchmark datasets
covering both interactive and automated processes used for data classification.
- Abstract(参考訳): 機械学習アルゴリズムは、エンドユーザーと開発者の両方が複雑なブラックボックスモデルと見なすモデルをしばしば生成する。
彼らは設計したドメインの観点からモデルを説明することができません。
提案する反復的ビジュアル論理分類器(ivlc)は、エンドユーザがモデルを設計し、信頼性を高め、精度を損なうことなくデータを分類できる、解釈可能な機械学習アルゴリズムである。
このようなテクニックは、医療領域におけるがんデータなどの機密で重要なデータを、高いコストで処理する上で特に有用である。
インタラクティブでロスレスな多次元可視化を提案することで、エンドユーザは、説明可能な決定を下すことができるデータ内のパターンを識別できる。
このようなオプションは、ブラックボックスの機械学習方法論では不可能だ。
解釈可能なIVLCアルゴリズムは、Interactive Shifted Paired Coordinates Software System (SPCVis)によってサポートされている。
ユーザ対話型機能を備えた無損失多次元データ可視化システムである。
インタラクティブなアプローチは、マシンラーニングの専門家に頼らずに、エンドユーザがセルフサービスとしてデータ分類を実行するための柔軟性を提供する。
インタラクティブなパターン発見は、数百の次元/機能を持つ大きなデータセットを扱うときに困難になる。
この問題を解決するために、この章では、新しいコーディネートオーダー最適化アルゴリズム(COO)と遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
COOアルゴリズムは、データ分離を最もよく表す座標対列を自動的に生成し、遺伝的アルゴリズムは、データ分類のための領域を自動的に生成することにより、提案したIVLCアルゴリズムの最適化を支援する。
このアプローチの有効性は、データ分類に使用されるインタラクティブプロセスと自動化プロセスの両方をカバーするベンチマークデータセットの実験によって示されている。
関連論文リスト
- Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Unsupervised Multi-Modal Representation Learning for Affective Computing
with Multi-Corpus Wearable Data [16.457778420360537]
我々は、人間の監督への依存を減らすために、教師なしの枠組みを提案する。
提案フレームワークは2つの畳み込み自己エンコーダを用いて、ウェアラブル心電図(ECG)と電磁気放射能(EDA)信号から潜時表現を学習する。
提案手法は, 同一のデータセット上での覚醒検出を行ない, 現状の成果よりも優れていた。
論文 参考訳(メタデータ) (2020-08-24T22:01:55Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z) - Visualisation and knowledge discovery from interpretable models [0.0]
欠落した値も扱える本質的な解釈可能なモデルをいくつか紹介する。
合成データセットと実世界のデータセットでアルゴリズムを実証した。
論文 参考訳(メタデータ) (2020-05-07T17:37:06Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。