論文の概要: A Novel Intrinsic Measure of Data Separability
- arxiv url: http://arxiv.org/abs/2109.05180v1
- Date: Sat, 11 Sep 2021 04:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:10:28.161243
- Title: A Novel Intrinsic Measure of Data Separability
- Title(参考訳): データ分離性に関する新しい本質的尺度
- Authors: Shuyue Guan, Murray Loew
- Abstract要約: 機械学習では、分類器のパフォーマンスはデータセットの分離性と複雑さに依存する。
私たちは、DSI(Distance-based Separability Index)という本質的な尺度を作成します。
DSIは,データセットの分布が任意の次元に対して同一であるか否かを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning, the performance of a classifier depends on both the
classifier model and the separability/complexity of datasets. To quantitatively
measure the separability of datasets, we create an intrinsic measure -- the
Distance-based Separability Index (DSI), which is independent of the classifier
model. We consider the situation in which different classes of data are mixed
in the same distribution to be the most difficult for classifiers to separate.
We then formally show that the DSI can indicate whether the distributions of
datasets are identical for any dimensionality. And we verify the DSI to be an
effective separability measure by comparing to several state-of-the-art
separability/complexity measures using synthetic and real datasets. Having
demonstrated the DSI's ability to compare distributions of samples, we also
discuss some of its other promising applications, such as measuring the
performance of generative adversarial networks (GANs) and evaluating the
results of clustering methods.
- Abstract(参考訳): 機械学習では、分類器の性能は分類器モデルとデータセットの分離性と複雑さの両方に依存する。
データセットの分離性を定量的に測定するために、分類子モデルとは独立した距離ベース分離性指標(dsi)という本質的な尺度を作成する。
我々は、異なるデータクラスが同じ分布で混合される状況が、分類器が分離するのが最も困難であると考えている。
すると、dsiはデータセットの分布が任意の次元に対して同一であるかどうかを示すことができる。
そして,DSIを,合成データセットと実データを用いたいくつかの最先端の分離性/複雑度尺度と比較することにより,効果的な分離性尺度として検証する。
dsiがサンプルの分布を比較する能力を示した結果,gans(generative adversarial network)の性能測定やクラスタリング手法の結果評価など,他の有望な応用についても論じた。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Exploring Hierarchical Classification Performance for Time Series Data:
Dissimilarity Measures and Classifier Comparisons [0.0]
本研究では,時系列データ解析における階層分類(HC)とフラット分類(FC)の手法の比較性能について検討した。
Jensen-Shannon Distance (JSD), Task similarity Distance (TSD), Based Distance (CBD)などの異種性対策が活用されている。
論文 参考訳(メタデータ) (2024-02-07T21:46:26Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z) - Data Separability for Neural Network Classifiers and the Development of
a Separability Index [17.49709034278995]
データセットの分離性を測定するために、DSI(Distance-based Separability Index)を作成しました。
DSIは、異なるクラスに属するデータに類似した分布があるかどうかを示す。
また、データサイエンス、機械学習、ディープラーニングの分野におけるDSIの応用の可能性についても論じている。
論文 参考訳(メタデータ) (2020-05-27T01:49:19Z) - Learning Similarity Metrics for Numerical Simulations [29.39625644221578]
本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。
提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。
論文 参考訳(メタデータ) (2020-02-18T20:11:15Z) - TCMI: a non-parametric mutual-dependence estimator for multivariate
continuous distributions [0.0]
総累積相互情報(TCMI)は相互依存の関連性の尺度である。
TCMIは、特徴集合の比較とランキングを容易にする非パラメトリックで堅牢で決定論的尺度である。
論文 参考訳(メタデータ) (2020-01-30T08:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。