論文の概要: The Data Representativeness Criterion: Predicting the Performance of
Supervised Classification Based on Data Set Similarity
- arxiv url: http://arxiv.org/abs/2002.12105v1
- Date: Thu, 27 Feb 2020 15:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 09:16:33.401728
- Title: The Data Representativeness Criterion: Predicting the Performance of
Supervised Classification Based on Data Set Similarity
- Title(参考訳): データ代表性基準:データ集合の類似性に基づく教師付き分類の性能予測
- Authors: Evelien Schat, Rens van de Schoot, Wouter M. Kouw, Duco Veen,
Adri\"enne M. Mendrik
- Abstract要約: 本稿では,データ代表性基準(DRC)を提案し,トレーニングデータセットが新たな未知のデータセットの表現方法を決定する。
本稿では、DRCがデータセットの類似性を定量化できるかどうか、およびDRCが教師付き分類アルゴリズムの性能に関係しているかどうかを検証するための原理の証明を示す。
- 参考スコア(独自算出の注目度): 4.934817254755008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a broad range of fields it may be desirable to reuse a supervised
classification algorithm and apply it to a new data set. However,
generalization of such an algorithm and thus achieving a similar classification
performance is only possible when the training data used to build the algorithm
is similar to new unseen data one wishes to apply it to. It is often unknown in
advance how an algorithm will perform on new unseen data, being a crucial
reason for not deploying an algorithm at all. Therefore, tools are needed to
measure the similarity of data sets. In this paper, we propose the Data
Representativeness Criterion (DRC) to determine how representative a training
data set is of a new unseen data set. We present a proof of principle, to see
whether the DRC can quantify the similarity of data sets and whether the DRC
relates to the performance of a supervised classification algorithm. We
compared a number of magnetic resonance imaging (MRI) data sets, ranging from
subtle to severe difference is acquisition parameters. Results indicate that,
based on the similarity of data sets, the DRC is able to give an indication as
to when the performance of a supervised classifier decreases. The strictness of
the DRC can be set by the user, depending on what one considers to be an
acceptable underperformance.
- Abstract(参考訳): 幅広い分野において、教師付き分類アルゴリズムを再利用し、新しいデータセットに適用することが望ましいかもしれない。
しかし、そのようなアルゴリズムの一般化と類似の分類性能の実現は、アルゴリズムを構築するのに使用されるトレーニングデータが、適用したい新しい未認識データと似ている場合にのみ可能である。
アルゴリズムが未知のデータに対してどのように振る舞うかは事前には分かっておらず、アルゴリズムを全くデプロイしない重要な理由である。
そのため、データセットの類似性を測定するツールが必要となる。
本稿では,新しい未知データセットのトレーニングデータセットの表現方法を決定するために,データ代表性基準(data representativeness criterion, drc)を提案する。
本稿では、DRCがデータセットの類似性を定量化できるかどうか、およびDRCが教師付き分類アルゴリズムの性能に関係しているかどうかを原理として示す。
mri( magnetic resonance imaging)のデータセットをいくつか比較し,微妙な差異から取得パラメータの違いまでについて検討した。
結果は、データセットの類似性に基づいて、DRCが教師付き分類器の性能が低下した時期を示すことを示唆している。
DRCの厳密さは、ユーザーが許容できる低パフォーマンスとみなすものに応じて、ユーザによって設定できる。
関連論文リスト
- DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - A new algorithm for Subgroup Set Discovery based on Information Gain [58.720142291102135]
Information Gained Subgroup Discovery (IGSD)は、パターン発見のための新しいSDアルゴリズムである。
IGSDと最先端の2つのSDアルゴリズム(FSSDとSSD++)を比較した。
IGSDはFSSDやSSD++よりもOR値が優れており、パターンとターゲットへの依存度が高い。
論文 参考訳(メタデータ) (2023-07-26T21:42:34Z) - Autoencoder Based Iterative Modeling and Multivariate Time-Series
Subsequence Clustering Algorithm [0.0]
本稿では、過渡時系列データ(MTSD)における変化点の検出と対応する部分列の同定のためのアルゴリズムを提案する。
我々は、リカレントニューラルネットワーク(RNN)ベースのオートエンコーダ(AE)を用いて、入ってくるデータに基づいて反復的に訓練する。
同定されたサブシーケンスのモデルを保存し、繰り返しサブシーケンスの認識と高速オフラインクラスタリングに使用する。
論文 参考訳(メタデータ) (2022-09-09T09:59:56Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - DAC: Deep Autoencoder-based Clustering, a General Deep Learning
Framework of Representation Learning [0.0]
dac,deep autoencoder-based clustering,深層ニューロンネットワークを用いてクラスタリング表現を学ぶためのデータ駆動フレームワークを提案する。
実験結果から,KMeansクラスタリングアルゴリズムの性能をさまざまなデータセット上で効果的に向上させることができた。
論文 参考訳(メタデータ) (2021-02-15T11:31:00Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。