論文の概要: Model-free feature selection to facilitate automatic discovery of
divergent subgroups in tabular data
- arxiv url: http://arxiv.org/abs/2203.04386v1
- Date: Tue, 8 Mar 2022 20:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 06:55:38.473321
- Title: Model-free feature selection to facilitate automatic discovery of
divergent subgroups in tabular data
- Title(参考訳): グラフデータ中の発散部分群の自動発見を容易にするモデルフリー特徴選択
- Authors: Girmaw Abebe Tadesse, William Ogallo, Celia Cintas, Skyler Speakman
- Abstract要約: 本稿では,分散サブグループの自動発見を容易にするために,モデルフリーかつスパーシティベース自動特徴選択(SAFS)フレームワークを提案する。
2つの公開データセット(MIMIC-IIIとAllstate Claims)でSAFSを検証し、既存の6つの特徴選択手法と比較した。
- 参考スコア(独自算出の注目度): 4.551615447454768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-centric AI encourages the need of cleaning and understanding of data in
order to achieve trustworthy AI. Existing technologies, such as AutoML, make it
easier to design and train models automatically, but there is a lack of a
similar level of capabilities to extract data-centric insights. Manual
stratification of tabular data per a feature (e.g., gender) is limited to scale
up for higher feature dimension, which could be addressed using automatic
discovery of divergent subgroups. Nonetheless, these automatic discovery
techniques often search across potentially exponential combinations of features
that could be simplified using a preceding feature selection step. Existing
feature selection techniques for tabular data often involve fitting a
particular model in order to select important features. However, such
model-based selection is prone to model-bias and spurious correlations in
addition to requiring extra resource to design, fine-tune and train a model. In
this paper, we propose a model-free and sparsity-based automatic feature
selection (SAFS) framework to facilitate automatic discovery of divergent
subgroups. Different from filter-based selection techniques, we exploit the
sparsity of objective measures among feature values to rank and select
features. We validated SAFS across two publicly available datasets (MIMIC-III
and Allstate Claims) and compared it with six existing feature selection
methods. SAFS achieves a reduction of feature selection time by a factor of 81x
and 104x, averaged cross the existing methods in the MIMIC-III and Claims
datasets respectively. SAFS-selected features are also shown to achieve
competitive detection performance, e.g., 18.3% of features selected by SAFS in
the Claims dataset detected divergent samples similar to those detected by
using the whole features with a Jaccard similarity of 0.95 but with a 16x
reduction in detection time.
- Abstract(参考訳): データ中心のAIは、信頼できるAIを達成するためにデータのクリーニングと理解の必要性を促進する。
AutoMLのような既存の技術は、モデルの設計とトレーニングを自動で容易にするが、データ中心の洞察を抽出する同様のレベルの能力は欠如している。
特徴ごとの表データの手動成層化(例えば、性別)は、発散したサブグループの自動発見によって対処できる、より高い特徴次元のためにスケールアップするために制限される。
それでも、これらの自動発見技術は、前回の機能選択ステップを使って単純化できる可能性のある指数関数的な組み合わせを探索することが多い。
表データの既存の特徴選択技術は、重要な特徴を選択するために、しばしば特定のモデルを適合させる。
しかしながら、このようなモデルに基づく選択は、モデルの設計、微調整、トレーニングに余分なリソースを必要とすることに加えて、モデルバイアスやスプリアス相関に起因する。
本稿では,分散サブグループの自動発見を容易にするために,モデルフリーかつ疎性に基づく自動特徴選択(SAFS)フレームワークを提案する。
フィルタに基づく選択手法と異なり,特徴値間の目的尺度の空間性を利用してランク付けと選択を行う。
2つの公開データセット(MIMIC-IIIとAllstate Claims)でSAFSを検証し、既存の6つの特徴選択手法と比較した。
SAFS は、MIMIC-III と Claims のデータセットの既存の手法を平均して 81x と 104x の係数で特徴選択時間を短縮する。
例えば、クレームデータセットにおけるsafsが選択した特徴の18.3%は、jaccardの類似度が0.95であるが、検出時間の16倍削減された全特徴を用いて検出された異種サンプルと類似している。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Unified View Imputation and Feature Selection Learning for Incomplete
Multi-view Data [13.079847265195127]
マルチビュー非教師付き特徴選択(MUFS)は、機械学習における次元性の低減に有効な技術である。
既存の方法は、一部のサンプルが欠落している不完全なマルチビューデータを直接処理することはできない。
UNIFIERは、サンプルと特徴空間の両方から類似性誘発グラフを適応的に学習することにより、マルチビューデータの局所構造を探索する。
論文 参考訳(メタデータ) (2024-01-19T08:26:44Z) - Automated Model Selection for Tabular Data [0.1797555376258229]
Rの混合効果線形モデルライブラリは、モデル設計において対話的な機能の組み合わせを提供することができる。
特徴的相互作用を取り入れたデータセットの予測のためのモデル選択プロセスを自動化することを目的としている。
このフレームワークには、優先順位に基づくランダムグリッド検索とグレディ検索という、2つの異なる機能選択のアプローチが含まれている。
論文 参考訳(メタデータ) (2024-01-01T21:41:20Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Graph-Based Automatic Feature Selection for Multi-Class Classification
via Mean Simplified Silhouette [4.786337974720721]
本稿では,自動特徴選択のためのグラフベースの新しいフィルタ手法を提案する(略してGB-AFS)。
予測性能を維持するために必要な特徴の最小の組み合わせを決定する。
選択する機能の数など、ユーザ定義パラメータを一切必要としない。
論文 参考訳(メタデータ) (2023-09-05T14:37:31Z) - Learning to Maximize Mutual Information for Dynamic Feature Selection [13.821253491768168]
本稿では,現在利用可能な情報に基づいてモデルを逐次クエリする動的特徴選択(DFS)問題を考察する。
条件付き相互情報に基づいて,特徴を欲求的に選択する,よりシンプルなアプローチについて検討する。
提案手法は,最適性を訓練した際の欲求を回復し,既存の特徴選択法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-02T08:31:56Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。