論文の概要: MiniAnDE: a reduced AnDE ensemble to deal with microarray data
- arxiv url: http://arxiv.org/abs/2311.12879v1
- Date: Mon, 20 Nov 2023 18:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:50:25.104462
- Title: MiniAnDE: a reduced AnDE ensemble to deal with microarray data
- Title(参考訳): MiniAnDE:マイクロアレイデータを扱うための縮小されたAnDEアンサンブル
- Authors: Pablo Torrijos, Jos\'e A. G\'amez, Jos\'e M. Puerta
- Abstract要約: MiniAnDEは、アンサンブル内の少数の異種基底分類器のみを含むアルゴリズムである。
この記事では、多数の変数と少数のインスタンスを持つデータセットの教師付き分類に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article focuses on the supervised classification of datasets with a
large number of variables and a small number of instances. This is the case,
for example, for microarray data sets commonly used in bioinformatics. Complex
classifiers that require estimating statistics over many variables are not
suitable for this type of data. Probabilistic classifiers with low-order
probability tables, e.g. NB and AODE, are good alternatives for dealing with
this type of data. AODE usually improves NB in accuracy, but suffers from high
spatial complexity since $k$ models, each with $n+1$ variables, are included in
the AODE ensemble. In this paper, we propose MiniAnDE, an algorithm that
includes only a small number of heterogeneous base classifiers in the ensemble,
i.e., each model only includes a different subset of the $k$ predictive
variables. Experimental evaluation shows that using MiniAnDE classifiers on
microarray data is feasible and outperforms NB and other ensembles such as
bagging and random forest.
- Abstract(参考訳): この記事では、多数の変数と少数のインスタンスからなるデータセットの教師付き分類に焦点を当てます。
これは例えば、バイオインフォマティクスで一般的に使用されるマイクロアレイデータセットの場合である。
多くの変数で統計を推定する必要がある複雑な分類器は、この種のデータには適していない。
低次確率表を持つ確率的分類器、例えばnbとaodeは、この種のデータを扱うのによい選択肢である。
AODEは通常、NBを精度良く改善するが、$k$モデルがそれぞれ$n+1$変数を持つため、空間的複雑さに悩まされる。
本稿では,アンサンブルに少数の不均一な基底分類器のみを含むアルゴリズムであるminiandeを提案する。つまり,各モデルには$k$予測変数の異なるサブセットのみが含まれている。
実験により,マイクロアレイデータに対するMiniAnDE分類器の使用は可能であり,バッグングやランダムフォレストなどのNBおよび他のアンサンブルよりも優れていた。
関連論文リスト
- Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - Uncertainty Quantification of MLE for Entity Ranking with Covariates [3.2839905453386162]
本稿では,ペア比較に基づくランキング問題の統計的推定と推定について検討する。
我々は、有名なBradley-Terry-Luceモデルを拡張した新しいモデルCAREモデルを提案する。
我々は、スパース比較グラフの下で、$alpha_i*_i=1n$と$beta*$の最大確率推定器を導出する。
大規模数値研究による理論結果の検証と相互資金保有データセットへの適用について検討する。
論文 参考訳(メタデータ) (2022-12-20T02:28:27Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Learning Shared Kernel Models: the Shared Kernel EM algorithm [0.0]
予測最大化 (EM) は有限混合分布のパラメータを推定するための教師なし学習法である。
まず、複数の目標追跡の分野からのデータアソシエーションのアイデアを用いた標準EMアルゴリズムの再帰について述べる。
この手法は、共有カーネルモデルに対して、ほとんど知られていないがより一般的なタイプの教師付きEMアルゴリズムに適用される。
論文 参考訳(メタデータ) (2022-05-15T10:10:08Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Sampling from a $k$-DPP without looking at all items [58.30573872035083]
カーネル関数とサブセットサイズ$k$が与えられた場合、我々のゴールは、サブセットによって誘導されるカーネル行列の行列式に比例する確率を持つ$n$アイテムから$k$をサンプリングすることである(つまり$k$-DPP)。
既存の$k$-DPPサンプリングアルゴリズムは、すべての$n$アイテムを複数回パスする高価な前処理ステップを必要とするため、大規模なデータセットでは利用できない。
そこで我々は, 十分大きなデータの均一なサンプルを適応的に構築し, より小さな$k$のアイテムを効率よく生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-30T16:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。