論文の概要: Different thresholding methods on Nearest Shrunken Centroid algorithm
- arxiv url: http://arxiv.org/abs/2501.00632v1
- Date: Tue, 31 Dec 2024 20:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:38.692054
- Title: Different thresholding methods on Nearest Shrunken Centroid algorithm
- Title(参考訳): 最も近いシュランケン・セントロイドアルゴリズムにおける異なるしきい値法
- Authors: Mohammad Omar Sahtout, Haiyan Wang, Santosh Ghimire,
- Abstract要約: PAMアルゴリズムを2つのしきい値法、ハード・アンド・オーダーしきい値法、ディープ・サーチ・アルゴリズムで拡張し、より優れたしきい値パラメータ推定を実現する。
修正アルゴリズムは、実データとモンテカルロの研究に基づく元のアルゴリズムと比較して、広範囲にテストされている。
- 参考スコア(独自算出の注目度): 2.783208809194078
- License:
- Abstract: This article considers the impact of different thresholding methods to the Nearest Shrunken Centroid algorithm, which is popularly referred as the Prediction Analysis of Microarrays (PAM) for high-dimensional classification. PAM uses soft thresholding to achieve high computational efficiency and high classification accuracy but in the price of retaining too many features. When applied to microarray human cancers, PAM selected 2611 features on average from 10 multi-class datasets. Such a large number of features make it difficult to perform follow up study. One reason behind this problem is the soft thresholding, which is known to produce biased parameter estimate in regression analysis. In this article, we extend the PAM algorithm with two other thresholding methods, hard and order thresholding, and a deep search algorithm to achieve better thresholding parameter estimate. The modified algorithms are extensively tested and compared to the original one based on real data and Monte Carlo studies. In general, the modification not only gave better cancer status prediction accuracy, but also resulted in more parsimonious models with significantly smaller number of features.
- Abstract(参考訳): 本稿では,高次元分類のためのマイクロアレイの予測解析(PAM)として一般に知られている,最も近いシュランケン・セントロイドアルゴリズムに対する,異なるしきい値法の影響について考察する。
PAMは、高い計算効率と高い分類精度を達成するためにソフトしきい値を使用するが、多くの特徴を保持する価格で利用できる。
マイクロアレイヒト癌に適用すると、PAMは10のマルチクラスデータセットから平均2611の特徴を抽出した。
このような多くの特徴は、追跡研究を行うのを困難にしている。
この問題の1つの原因は、回帰分析においてバイアスパラメータ推定を生成することが知られているソフトしきい値付けである。
本稿では,PAMアルゴリズムを2つのしきい値法,ハード・アンド・オーダーしきい値法,ディープ・サーチ・アルゴリズムで拡張し,より優れたしきい値パラメータ推定を実現する。
修正アルゴリズムは、実データとモンテカルロの研究に基づく元のアルゴリズムと比較して、広範囲にテストされている。
一般に、この修正はがんの状態の予測精度を向上するだけでなく、特徴が著しく少ない同義的なモデルももたらした。
関連論文リスト
- Metastatic Breast Cancer Prognostication Through Multimodal Integration
of Dimensionality Reduction Algorithms and Classification Algorithms [0.0]
機械学習(ML)を用いた転移性癌の検出に関する研究
71.14%の最高精度は、PCA、遺伝的アルゴリズム、k-アネレスト近傍アルゴリズムからなるMLパイプラインによって作られた。
論文 参考訳(メタデータ) (2023-09-19T05:12:02Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - High Per Parameter: A Large-Scale Study of Hyperparameter Tuning for
Machine Learning Algorithms [0.0]
本研究は,機械学習におけるハイパーパラメータチューニングの利用に関する大規模研究である。
26のMLアルゴリズム、250のデータセット(回帰とバイナリとマルチノードの分類)、6つのスコアメトリクス、28,857,600のアルゴリズム実行が含まれていた。
アルゴリズムの蓄積した統計値を組み合わせた単一のhp_score値を定義することで、26のMLアルゴリズムを、最も多く得られると期待されているものから最小にランク付けすることができる。
論文 参考訳(メタデータ) (2022-07-13T08:17:48Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - An Application of a Multivariate Estimation of Distribution Algorithm to
Cancer Chemotherapy [59.40521061783166]
癌に対する化学療法治療は、多数の相互作用する変数と制約を持つ複雑な最適化問題である。
より洗練されたアルゴリズムは、このような複雑な問題に対してより良いパフォーマンスをもたらすことが示される。
我々は、この問題における多数の相互作用によって、より洗練されたアルゴリズムが妨げられていることが原因であると仮定する。
論文 参考訳(メタデータ) (2022-05-17T15:28:46Z) - Towards Feature-Based Performance Regression Using Trajectory Data [0.9281671380673306]
ブラックボックス最適化は非常に活発な研究領域であり、毎年多くの新しいアルゴリズムが開発されている。
アルゴリズムの多様性はメタプロブレム(メタプロブレム):どのアルゴリズムが与えられた問題を選択するか?
過去の研究では、探索ランドスケープ分析に基づくインスタンスごとのアルゴリズム選択が、このメタプロブレムに取り組むための効率的な手段であることが示されている。
論文 参考訳(メタデータ) (2021-02-10T10:19:13Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。