論文の概要: Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data
- arxiv url: http://arxiv.org/abs/2210.13043v1
- Date: Mon, 24 Oct 2022 08:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:32:11.566205
- Title: Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data
- Title(参考訳): data-iq: 表データにおける不均一な結果を持つサブグループを特徴付ける
- Authors: Nabeel Seedat, Jonathan Crabb\'e, Ioana Bica, Mihaela van der Schaar
- Abstract要約: 本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
- 参考スコア(独自算出の注目度): 81.43750358586072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High model performance, on average, can hide that models may systematically
underperform on subgroups of the data. We consider the tabular setting, which
surfaces the unique issue of outcome heterogeneity - this is prevalent in areas
such as healthcare, where patients with similar features can have different
outcomes, thus making reliable predictions challenging. To tackle this, we
propose Data-IQ, a framework to systematically stratify examples into subgroups
with respect to their outcomes. We do this by analyzing the behavior of
individual examples during training, based on their predictive confidence and,
importantly, the aleatoric (data) uncertainty. Capturing the aleatoric
uncertainty permits a principled characterization and then subsequent
stratification of data examples into three distinct subgroups (Easy, Ambiguous,
Hard). We experimentally demonstrate the benefits of Data-IQ on four real-world
medical datasets. We show that Data-IQ's characterization of examples is most
robust to variation across similarly performant (yet different) models,
compared to baselines. Since Data-IQ can be used with any ML model (including
neural networks, gradient boosting etc.), this property ensures consistency of
data characterization, while allowing flexible model selection. Taking this a
step further, we demonstrate that the subgroups enable us to construct new
approaches to both feature acquisition and dataset selection. Furthermore, we
highlight how the subgroups can inform reliable model usage, noting the
significant impact of the Ambiguous subgroup on model generalization.
- Abstract(参考訳): 平均して高いモデル性能は、モデルがデータのサブグループで体系的に過小評価されることを隠すことができる。
私たちは、結果の不均一性の独特な問題である表的な設定について検討しています – これは医療などの分野において、類似した特徴を持つ患者が異なる結果をもたらす可能性があるため、信頼性の高い予測が困難になるような場合が多いのです。
そこで本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
トレーニング中の個々のサンプルの挙動を,その予測的信頼度と,重要なアレータリック(データ)の不確実性に基づいて分析する。
aleatoric uncertaintyをキャプチャすることで、原則的なキャラクタリゼーションが可能になり、データ例を3つの異なるサブグループ(easy、ambiguous、hard)に階層化することができる。
4つの現実世界の医療データセットにおけるdata-iqの利点を実験的に実証する。
データ-IQの例の特徴は, ベースラインと比較して, 同様の性能(異なる)モデル間での変動に対して最も頑健であることを示す。
Data-IQは、任意のMLモデル(ニューラルネットワーク、勾配向上など)で使用できるため、この特性は、柔軟なモデル選択を可能にしながら、データのキャラクタリゼーションの一貫性を保証する。
さらにこれを一歩進めて、機能獲得とデータセット選択の両方に新たなアプローチを構築することが可能であることを示す。
さらに, モデル一般化に対するアンビグラス部分群の影響に着目し, モデル利用の信頼性について報告する。
関連論文リスト
- Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Unsupervised Probabilistic Models for Sequential Electronic Health
Records [3.8015092217142223]
モデルは、データの基盤構造をエンコードする遅延変数の階層化セットで構成されている。
我々は,北カリフォルニアのKaiser Permanente(カイザー・パーマネンテ)統合型ヘルスケアデリバリーシステムにおいて,医療を受ける被験者のエピソードデータに基づいて,このモデルを訓練する。
トレーニングされたモデルの結果として得られる特性は、これらの複雑で多面的なデータから新しい洞察を生み出す。
論文 参考訳(メタデータ) (2022-04-15T02:11:44Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。