論文の概要: A model-free subdata selection method for classification
- arxiv url: http://arxiv.org/abs/2404.19127v1
- Date: Mon, 29 Apr 2024 22:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 16:03:12.848830
- Title: A model-free subdata selection method for classification
- Title(参考訳): 分類のためのモデルフリーなサブデータ選択法
- Authors: Rakhi Singh,
- Abstract要約: サブデータ選択(Subdata selection)は、ビッグデータの小さな代表サンプルを選択する方法の研究である。
分類問題に対するモデルフリーなサブデータ選択法を提案する。
PEDサブデータが一様データよりも小さいGiniとなることを解析的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subdata selection is a study of methods that select a small representative sample of the big data, the analysis of which is fast and statistically efficient. The existing subdata selection methods assume that the big data can be reasonably modeled using an underlying model, such as a (multinomial) logistic regression for classification problems. These methods work extremely well when the underlying modeling assumption is correct but often yield poor results otherwise. In this paper, we propose a model-free subdata selection method for classification problems, and the resulting subdata is called PED subdata. The PED subdata uses decision trees to find a partition of the data, followed by selecting an appropriate sample from each component of the partition. Random forests are used for analyzing the selected subdata. Our method can be employed for a general number of classes in the response and for both categorical and continuous predictors. We show analytically that the PED subdata results in a smaller Gini than a uniform subdata. Further, we demonstrate that the PED subdata has higher classification accuracy than other competing methods through extensive simulated and real datasets.
- Abstract(参考訳): サブデータ選択(Subdata selection)は、ビッグデータの小さな代表サンプルを選択する方法の研究であり、その分析は高速で統計的に効率的である。
既存のサブデータ選択法は、分類問題に対する(多重の)ロジスティック回帰のような基礎モデルを用いて、ビッグデータを合理的にモデル化できると仮定する。
これらの手法は、基礎となるモデリング仮定が正しいが、多くの場合、そうでなければ、悪い結果をもたらすとき、非常にうまく機能する。
本稿では,分類問題に対するモデルフリーなサブデータ選択法を提案し,その結果をPEDサブデータと呼ぶ。
PEDサブデータはデータのパーティションを見つけるために決定木を使用し、続いてパーティションの各コンポーネントから適切なサンプルを選択する。
ランダムフォレストは、選択したサブデータを分析するために使用される。
本手法は,応答の一般クラスとカテゴリー的および連続的予測器の両方に利用することができる。
PEDサブデータが一様データよりも小さいGiniとなることを解析的に示す。
さらに、PEDサブデータは、広範囲なシミュレーションおよび実データを用いて、競合する他の手法よりも高い分類精度を有することを示した。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Learned Causal Method Prediction [10.36548504177628]
与えられたデータセットに対して最適なメソッドを予測するためのフレームワークであるCAusal Method Predictor (CAMP)を提案する。
我々は、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学びました。
論文 参考訳(メタデータ) (2023-11-07T13:39:17Z) - A Consistent and Scalable Algorithm for Best Subset Selection in Single
Index Models [1.3236116985407258]
高次元モデルにおける最良の部分集合選択は、計算的に難解であることが知られている。
我々は,高次元SIMにおける最良部分選択のための,証明可能な最初の拡張性アルゴリズムを提案する。
アルゴリズムは部分集合選択の一貫性を保ち、高い確率でオラクル特性を持つ。
論文 参考訳(メタデータ) (2023-09-12T13:48:06Z) - Finding Meaningful Distributions of ML Black-boxes under Forensic
Investigation [25.79728190384834]
ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメインを知りたがっている法医学研究者の視点を捉えます。
本稿では、ImageNetなどの包括的コーパスを利用して意味のある分布を選択することで、この問題を解決することを提案する。
私たちのゴールは、与えられたモデルのためにコーパスからサンプルのセットを選択することです。
論文 参考訳(メタデータ) (2023-05-10T03:25:23Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Hierarchical Representation via Message Propagation for Robust Model
Fitting [28.03005930782681]
堅牢なモデルフィッティングのためのメッセージ伝搬(HRMP)法による新しい階層表現を提案する。
コンセンサス情報と選好情報を階層的表現として定式化し、粗悪な外れ値に対する感度を緩和する。
提案するhrmpは,複数のモデルインスタンスの数とパラメータを正確に推定するだけでなく,多数の異常値で汚染されたマルチストラクショナルデータを処理できる。
論文 参考訳(メタデータ) (2020-12-29T04:14:19Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。