論文の概要: Robust Classification of High-Dimensional Data using Data-Adaptive
Energy Distance
- arxiv url: http://arxiv.org/abs/2306.13985v1
- Date: Sat, 24 Jun 2023 14:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:51:36.422227
- Title: Robust Classification of High-Dimensional Data using Data-Adaptive
Energy Distance
- Title(参考訳): データ適応型エネルギー距離を用いた高次元データのロバスト分類
- Authors: Jyotishka Ray Choudhury, Aytijhya Saha, Sarbojit Roy, Subhajit Dutta
- Abstract要約: 高次元低サンプルサイズ(HDLSS)データの分類は、様々な現実の状況において課題となる。
本稿では,HDLSSデータ用に特別に設計された分類器の開発と解析について述べる。
比較的一般的な条件下では、HDLSS系では完全な分類が得られることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification of high-dimensional low sample size (HDLSS) data poses a
challenge in a variety of real-world situations, such as gene expression
studies, cancer research, and medical imaging. This article presents the
development and analysis of some classifiers that are specifically designed for
HDLSS data. These classifiers are free of tuning parameters and are robust, in
the sense that they are devoid of any moment conditions of the underlying data
distributions. It is shown that they yield perfect classification in the HDLSS
asymptotic regime, under some fairly general conditions. The comparative
performance of the proposed classifiers is also investigated. Our theoretical
results are supported by extensive simulation studies and real data analysis,
which demonstrate promising advantages of the proposed classification
techniques over several widely recognized methods.
- Abstract(参考訳): 高次元低サンプルサイズ(HDLSS)データの分類は、遺伝子発現研究、がん研究、医療画像など、様々な現実の状況において課題となる。
本稿では,HDLSSデータ用に特別に設計された分類器の開発と解析について述べる。
これらの分類器はチューニングパラメータを含まず、基礎となるデータ分布のモーメント条件を欠いているという意味では堅牢である。
比較的一般的な条件下でHDLSS漸近系において完全な分類が得られることが示されている。
また,提案する分類器の比較性能についても検討した。
提案手法が広く認知されている手法に対して,提案手法の有望な優位性を示すため, シミュレーション研究と実データ解析が有効である。
関連論文リスト
- Exploring Hierarchical Classification Performance for Time Series Data:
Dissimilarity Measures and Classifier Comparisons [0.0]
本研究では,時系列データ解析における階層分類(HC)とフラット分類(FC)の手法の比較性能について検討した。
Jensen-Shannon Distance (JSD), Task similarity Distance (TSD), Based Distance (CBD)などの異種性対策が活用されている。
論文 参考訳(メタデータ) (2024-02-07T21:46:26Z) - Plugin estimators for selective classification with out-of-distribution
detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。
これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。
OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。
本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文 参考訳(メタデータ) (2023-01-29T07:45:17Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Cancer Subtyping by Improved Transcriptomic Features Using Vector
Quantized Variational Autoencoder [10.835673227875615]
本稿では,Vector Quantized Variational AutoEncoder (VQ-VAE)を提案する。
VQ-VAEは厳密な仮定を課さないため、その潜在機能は入力のより良い表現であり、メインストリームのクラスタリング手法で優れたクラスタリング性能を得ることができる。
論文 参考訳(メタデータ) (2022-07-20T09:47:53Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Population structure-learned classifier for high-dimension
low-sample-size class-imbalanced problem [3.411873646414169]
集団構造学習型分類器(PSC)を提案する。
PSCは、IHDLSS上でのより優れた一般化性能を得ることができる。
PSCはIHDLSSの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-10T08:33:39Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - The classification for High-dimension low-sample size data [3.411873646414169]
本稿では,クラス分離可能性の前提として,クラス内分散の類似性を強調する,HDLSSの新たな分類基準を提案する。
この基準により、非分離データ分散最大値 (NPDMD) で表される新しい線形二分分類器が設計される。
NPDMDは最先端の分類法と比較していくつかの特徴がある。
論文 参考訳(メタデータ) (2020-06-21T07:04:16Z) - A Compressive Classification Framework for High-Dimensional Data [12.284934135116515]
本稿では,データ次元がサンプルサイズよりもかなり高い設定のための圧縮分類フレームワークを提案する。
提案手法は線形判別分析に基づく正規化判別分析(CRDA)と呼ばれる。
識別規則における強しきい値化を促進するジョイントスパーシティを用いることで、重要な特徴を選択できる。
論文 参考訳(メタデータ) (2020-05-09T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。