論文の概要: MISFEAT: Feature Selection for Subgroups with Systematic Missing Data
- arxiv url: http://arxiv.org/abs/2412.06711v1
- Date: Mon, 09 Dec 2024 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:47.406001
- Title: MISFEAT: Feature Selection for Subgroups with Systematic Missing Data
- Title(参考訳): MISFEAT: システム的欠落データを持つサブグループの特徴選択
- Authors: Bar Genossar, Thinh On, Md. Mouinul Islam, Ben Eliav, Senjuti Basu Roy, Avigdor Gal,
- Abstract要約: サブグループのオールに対していくつかの特徴値が欠落するシナリオである、体系的な欠落データという課題に対処する。
我々のゴールは、ある一定サイズのトップK特徴部分集合を、ターゲット変数との最も高い結合情報で識別することである。
異種グラフニューラルネットワークを用いた一般化可能なモデルを提案し,特徴-部分群-ターゲット変数間の相互依存性を同定する。
- 参考スコア(独自算出の注目度): 8.063972429611365
- License:
- Abstract: We investigate the problem of selecting features for datasets that can be naturally partitioned into subgroups (e.g., according to socio-demographic groups and age), each with its own dominant set of features. Within this subgroup-oriented framework, we address the challenge of systematic missing data, a scenario in which some feature values are missing for all tuples of a subgroup, due to flawed data integration, regulatory constraints, or privacy concerns. Feature selection is governed by finding mutual Information, a popular quantification of correlation, between features and a target variable. Our goal is to identify top-K feature subsets of some fixed size with the highest joint mutual information with a target variable. In the presence of systematic missing data, the closed form of mutual information could not simply be applied. We argue that in such a setting, leveraging relationships between available feature mutual information within a subgroup or across subgroups can assist inferring missing mutual information values. We propose a generalizable model based on heterogeneous graph neural network to identify interdependencies between feature-subgroup-target variable connections by modeling it as a multiplex graph, and employing information propagation between its nodes. We address two distinct scalability challenges related to training and propose principled solutions to tackle them. Through an extensive empirical evaluation, we demonstrate the efficacy of the proposed solutions both qualitatively and running time wise.
- Abstract(参考訳): 本研究では、自然にサブグループに分割できるデータセットの特徴(例えば、社会デミノグラフィーグループと年齢)を、それぞれが支配的な特徴を持つ形で選択する問題について検討する。
このサブグループ指向のフレームワークでは、データ統合の欠陥、規制の制約、プライバシの懸念などにより、サブグループのすべてのタプルにいくつかの特徴値が欠落するシナリオである、体系的な欠落データの問題に対処する。
特徴選択は、特徴と対象変数の間の相関の一般的な定量化である相互情報を見つけることによって制御される。
我々のゴールは、ある一定サイズのトップK特徴部分集合を、ターゲット変数との最も高い結合情報で識別することである。
体系的な欠落データが存在する場合、相互情報の閉じた形式は単に適用できない。
このような設定では、サブグループ内またはサブグループ間で利用可能な特徴的相互情報間の関係を利用して、欠落した相互情報値の推測を支援することができると論じる。
マルチグラフとしてモデル化し,そのノード間の情報伝達を利用することにより,特徴-サブグループ-ターゲット変数間の相互依存性を同定する,異種グラフニューラルネットワークに基づく一般化可能なモデルを提案する。
トレーニングに関連する2つの異なるスケーラビリティ課題に対処し、それに取り組むための原則付きソリューションを提案する。
実験的な評価を通じて,提案手法の有効性を定性的にも実行時的にも実証する。
関連論文リスト
- Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。
インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文 参考訳(メタデータ) (2024-05-31T15:21:59Z) - A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection [0.1474723404975345]
多目的特徴選択(MOFS)アプローチは、4つ以上の目的を用いて、教師付き学習タスクにおける機能のサブセットの関連性を決定する。
本稿では,MOFS結果の解釈と比較においてデータサイエンティストを支援する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T17:44:22Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Addressing Missing Sources with Adversarial Support-Matching [8.53946780558779]
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
論文 参考訳(メタデータ) (2022-03-24T16:19:19Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - A Framework for Multi-View Classification of Features [6.660458629649826]
データ分類問題の解決では、機能セットが大きすぎると、典型的なアプローチではその問題を解決することができない。
本研究では,人間の複数視点理論における物体認識の問題に触発された,多視点アンサンブル分類のための革新的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-02T16:27:43Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。