Fugu-MT 論文翻訳(概要): Explainable Mixed Data Representation and Lossless Visualization Toolkit for Knowledge Discovery

論文の概要: Explainable Mixed Data Representation and Lossless Visualization Toolkit for Knowledge Discovery

arxiv url: http://arxiv.org/abs/2206.06476v1
Date: Mon, 13 Jun 2022 21:14:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 15:00:05.896242
Title: Explainable Mixed Data Representation and Lossless Visualization Toolkit for Knowledge Discovery
Title（参考訳）: 知識発見のための説明可能な混合データ表現とロスレス可視化ツールキット
Authors: Boris Kovalerchuk, Elijah McCoy
Abstract要約: 不均一/混合データのための機械学習アルゴリズムの開発は、長年の課題である。多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データには適用できない。本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。
参考スコア（独自算出の注目度）: 7.005458308454871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing Machine Learning (ML) algorithms for heterogeneous/mixed data is a longstanding problem. Many ML algorithms are not applicable to mixed data, which include numeric and non-numeric data, text, graphs and so on to generate interpretable models. Another longstanding problem is developing algorithms for lossless visualization of multidimensional mixed data. The further progress in ML heavily depends on success interpretable ML algorithms for mixed data and lossless interpretable visualization of multidimensional data. The later allows developing interpretable ML models using visual knowledge discovery by end-users, who can bring valuable domain knowledge which is absent in the training data. The challenges for mixed data include: (1) generating numeric coding schemes for non-numeric attributes for numeric ML algorithms to provide accurate and interpretable ML models, (2) generating methods for lossless visualization of n-D non-numeric data and visual rule discovery in these visualizations. This paper presents a classification of mixed data types, analyzes their importance for ML and present the developed experimental toolkit to deal with mixed data. It combines the Data Types Editor, VisCanvas data visualization and rule discovery system which is available on GitHub.
Abstract（参考訳）: 不均一/混合データのための機械学習(ml)アルゴリズムの開発は長年の課題である。多くのMLアルゴリズムは、数値データや非数値データ、テキスト、グラフなどを含む混合データに適用できず、解釈可能なモデルを生成する。もう1つの長期的な問題は、多次元混合データのロスレス可視化のためのアルゴリズムの開発である。 MLのさらなる進歩は、混合データに対する解釈可能なMLアルゴリズムの成功と多次元データのロスレス解釈可能な可視化に大きく依存している。これにより、エンドユーザによる視覚的知識発見を使用して解釈可能なMLモデルの開発が可能になる。混合データに対する課題は,(1) 数値MLアルゴリズムの非数値属性の数値符号化スキームを生成し,正確かつ解釈可能なMLモデルを提供すること,(2) n-D の非数値データのロスレス可視化のための方法,およびこれらの視覚化における視覚ルールの発見である。本稿では、混合データの種類を分類し、MLの重要性を分析し、混合データを扱うための実験ツールキットを提案する。データ型エディタ、VisCanvasデータ可視化、ルール発見システムを組み合わせたもので、GitHubで公開されている。

関連論文リスト

Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models [25.564425023762045]
現在の視覚言語モデル(VLM)は、基本的なデータ可視化理解タスクに苦戦している。 VLMの失敗は、データビジュアライゼーションにおける視覚情報のエンコード方法、視覚と言語モジュール間の情報転送方法、言語モジュール内での情報処理方法の制限に起因するか? 我々は,データ可視化理解タスクのスイートであるFUGUを開発した。
論文参考訳（メタデータ） (2025-10-02T18:29:07Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Medical artificial intelligence toolbox (MAIT): an explainable machine learning framework for binary classification, survival modelling, and regression analyses [0.0]
Medical Artificial Intelligence Toolbox (MAIT)は、バイナリ分類、回帰、サバイバルモデルの開発と評価のための、説明可能なオープンソースのPythonパイプラインである。 MAITは、レポートの透明性を促進しながら、重要な課題(例えば、高次元性、クラス不均衡、混合変数型、欠如)に対処する。医療研究におけるMLモデルの実装と解釈を改善するために、MAITをどのように使用できるかを示すために、4つのオープンアクセスデータセットを使用して、GitHubで詳細なチュートリアルを提供している。
論文参考訳（メタデータ） (2025-01-08T14:51:36Z)
Explainable Machine Learning for Categorical and Mixed Data with Lossless Visualization [3.4809730725241597]
本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。混合データ上での視覚的データ探索による混合データ上でのMLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提案する。カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。
論文参考訳（メタデータ） (2023-05-29T00:41:32Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Integrating Transformer and Autoencoder Techniques with Spectral Graph Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文参考訳（メタデータ） (2022-11-12T22:45:32Z)
Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文参考訳（メタデータ） (2022-01-26T22:26:01Z)
Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文参考訳（メタデータ） (2021-10-20T14:23:54Z)
PyHard: a novel tool for generating hardness embeddings to support data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文参考訳（メタデータ） (2021-09-29T14:08:26Z)
An Introduction to Robust Graph Convolutional Networks [71.68610791161355]
本論文では, 誤りのある単一ビューあるいは複数ビューのデータに対して, 新たなロバストグラフ畳み込みニューラルネットワークを提案する。従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付けおよび処理します。
論文参考訳（メタデータ） (2021-03-27T04:47:59Z)
Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文参考訳（メタデータ） (2020-09-01T15:08:23Z)
Visualisation and knowledge discovery from interpretable models [0.0]
欠落した値も扱える本質的な解釈可能なモデルをいくつか紹介する。合成データセットと実世界のデータセットでアルゴリズムを実証した。
論文参考訳（メタデータ） (2020-05-07T17:37:06Z)
Injective Domain Knowledge in Neural Networks for Transprecision Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文参考訳（メタデータ） (2020-02-24T12:58:56Z)
Data Augmentation for Histopathological Images Based on Gaussian-Laplacian Pyramid Blending [59.91656519028334]
データ不均衡は、機械学習(ML)アルゴリズムに影響を及ぼす主要な問題である。本稿では、HIデータセットを増大させるだけでなく、患者間の変動を分散させる新しいアプローチを提案する。 BreakHisデータセットの実験結果から、文献で示されたDA手法の大多数は、有望な利得を示している。
論文参考訳（メタデータ） (2020-01-31T22:02:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。