論文の概要: A system for exploring big data: an iterative k-means searchlight for
outlier detection on open health data
- arxiv url: http://arxiv.org/abs/2304.02189v1
- Date: Wed, 5 Apr 2023 02:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:49:16.830036
- Title: A system for exploring big data: an iterative k-means searchlight for
outlier detection on open health data
- Title(参考訳): ビッグデータ探索システム--オープンヘルスデータにおける外乱検出のための反復k平均探索ライト-
- Authors: A. Ravishankar Rao, Daniel Clarke, Subrata Garai, Soumyabrata Dey
- Abstract要約: 本稿では,サーチライト手法を用いて複数の変数の組み合わせを探索し,外乱を識別するシステムを提案する。
ニューヨーク州が公開しているオープンヘルスデータを分析して,本システムについて解説する。
特定の病院での費用オーバーランや、自殺などの診断の増加など、データの異常な傾向が特定されている。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The interactive exploration of large and evolving datasets is challenging as
relationships between underlying variables may not be fully understood. There
may be hidden trends and patterns in the data that are worthy of further
exploration and analysis. We present a system that methodically explores
multiple combinations of variables using a searchlight technique and identifies
outliers. An iterative k-means clustering algorithm is applied to features
derived through a split-apply-combine paradigm used in the database literature.
Outliers are identified as singleton or small clusters. This algorithm is swept
across the dataset in a searchlight manner. The dimensions that contain
outliers are combined in pairs with other dimensions using a susbset scan
technique to gain further insight into the outliers. We illustrate this system
by anaylzing open health care data released by New York State. We apply our
iterative k-means searchlight followed by subset scanning. Several anomalous
trends in the data are identified, including cost overruns at specific
hospitals, and increases in diagnoses such as suicides. These constitute novel
findings in the literature, and are of potential use to regulatory agencies,
policy makers and concerned citizens.
- Abstract(参考訳): 大規模で進化するデータセットの対話的な探索は、基礎となる変数間の関係を完全に理解できないため、難しい。
さらなる探索と分析に値するデータには、隠れたトレンドとパターンがあるかもしれない。
本稿では,サーチライト手法を用いて変数の複数組み合わせを体系的に探索し,外乱を識別するシステムを提案する。
反復的k-meansクラスタリングアルゴリズムは、データベースの文献で使われるスプリット-apply-combineパラダイムによって導かれる特徴に適用される。
外層はシングルトンまたは小さなクラスターとして識別される。
このアルゴリズムは、検索ライト方式でデータセットにまたがる。
外れ値を含む次元は、サスセットスキャン技術を用いて他の次元と組み合わせて、外れ値に関するさらなる洞察を得る。
このシステムは、ニューヨーク州が公開しているオープンヘルスデータを分析して説明する。
繰り返しk-meansサーチライトとサブセットスキャンを適用した。
特定の病院でのコストオーバーランや自殺などの診断の増加など、データの異常な傾向が特定されている。
これらは文学における新たな発見であり、規制機関、政策立案者および関係市民に潜在的に有用である。
関連論文リスト
- The importance of the clustering model to detect new types of intrusion in data traffic [0.0]
提案手法では,クラスタリング手法としてK-meansアルゴリズムを用いる。
データはKali Linux環境、cicflowmeterトラフィック、Putty Softwareツールを利用して収集された。
モデルは攻撃を数え、それぞれに番号を割り当てた。
論文 参考訳(メタデータ) (2024-11-21T19:40:31Z) - DeepHYDRA: Resource-Efficient Time-Series Anomaly Detection in Dynamically-Configured Systems [3.44012349879073]
我々はDeepHYDRA(Deep Hybrid DBSCAN/reduction-based Anomaly Detection)を提案する。
DBSCANと学習ベースの異常検出を組み合わせる。
大規模なデータセットと複雑なデータセットの両方において、異なるタイプの異常を確実に検出できることが示されている。
論文 参考訳(メタデータ) (2024-05-13T13:47:15Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Applied Deep Learning to Identify and Localize Polyps from Endoscopic
Images [0.0]
我々は,ポリープや潰瘍のアノテーションを含むデータセットのオープンソース化を目指してきた。
これは、ポリプと潰瘍の画像を含むインド初のデータセットです。
大規模な公開データセットでトレーニングされた、人気のあるディープラーニングオブジェクト検出モデルを用いて、データセットを評価しました。
論文 参考訳(メタデータ) (2023-01-22T22:14:25Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Contrastive analysis for scatter plot-based representations of
dimensionality reduction [0.0]
本稿では,マルチ次元データセットを探索し,クラスタの形成を解釈する手法を提案する。
また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。
論文 参考訳(メタデータ) (2021-01-26T01:16:31Z) - Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of
Heart Failure Patients [50.48904066814385]
本研究では、深層半教師付き組込みクラスタリングを用いて、心不全のデータ駆動型患者サブグループを決定する。
ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。
提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができる。
論文 参考訳(メタデータ) (2020-12-24T12:56:46Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Visual Neural Decomposition to Explain Multivariate Data Sets [13.117139248511783]
多次元データセットにおける変数間の関係を調べることは、データアナリストとエンジニアにとって共通の課題である。
本稿では,入力変数と対象変数との相関関係を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T15:53:37Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。