論文の概要: Data-Driven Subgroup Identification for Linear Regression
- arxiv url: http://arxiv.org/abs/2305.00195v1
- Date: Sat, 29 Apr 2023 08:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:42:14.638645
- Title: Data-Driven Subgroup Identification for Linear Regression
- Title(参考訳): 線形回帰のためのデータ駆動サブグループ同定
- Authors: Zachary Izzo, Ruishan Liu, James Zou
- Abstract要約: 本稿では,データ内のサブグループを特徴量とラベルの均一な線形関係で識別するDDGroupを提案する。
DDGroupは低分散の1つの線形モデルを適切に特定した領域を復元する。
実験の結果、DDGroupはデータセット全体にパラメトリックなアプローチを適用するだけで見逃される定性的に異なる関係を持つサブグループを発見できることがわかった。
- 参考スコア(独自算出の注目度): 15.709279037284054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical studies frequently require to extract the relationship between each
covariate and the outcome with statistical confidence measures. To do this,
simple parametric models are frequently used (e.g. coefficients of linear
regression) but usually fitted on the whole dataset. However, it is common that
the covariates may not have a uniform effect over the whole population and thus
a unified simple model can miss the heterogeneous signal. For example, a linear
model may be able to explain a subset of the data but fail on the rest due to
the nonlinearity and heterogeneity in the data. In this paper, we propose
DDGroup (data-driven group discovery), a data-driven method to effectively
identify subgroups in the data with a uniform linear relationship between the
features and the label. DDGroup outputs an interpretable region in which the
linear model is expected to hold. It is simple to implement and computationally
tractable for use. We show theoretically that, given a large enough sample,
DDGroup recovers a region where a single linear model with low variance is
well-specified (if one exists), and experiments on real-world medical datasets
confirm that it can discover regions where a local linear model has improved
performance. Our experiments also show that DDGroup can uncover subgroups with
qualitatively different relationships which are missed by simply applying
parametric approaches to the whole dataset.
- Abstract(参考訳): 医学研究はしばしば、それぞれの共変量と統計的信頼度尺度による結果の関係を抽出する必要がある。
これを実現するために、単純なパラメトリックモデルは頻繁に使用される(例えば線形回帰係数)が、通常はデータセット全体に適合する。
しかし、共変量体が全集団に対して一様効果を持たず、従って統一された単純なモデルが異種信号を見逃すことはよくある。
例えば、線形モデルはデータのサブセットを説明することができるが、データの非線形性と不均一性のために残りの部分で失敗することがある。
本稿では,データ中の部分群を特徴とラベル間の一様線形関係で効果的に識別するデータ駆動手法であるddgroup(data-driven group discovery)を提案する。
DDGroupは線形モデルが保持されるであろう解釈可能な領域を出力する。
簡単に実装でき、計算処理も可能である。
理論的には, 十分なサンプルを与えられたddgroupは, 低分散の1つの線形モデルが十分に特定された領域を回復し, 実世界の医療データセット実験により, 局所線形モデルの性能が向上した領域を発見できることを確認した。
実験の結果,DDGroupはデータセット全体にパラメトリックなアプローチを適用するだけで,質的に異なる関係を持つサブグループを発見できることがわかった。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - A new LDA formulation with covariates [3.1690891866882236]
ラテント・ディリクレ・アロケーション・モデルは混合メンバーシップ・クラスタを作成する一般的な方法である。
共変量を含むLDAモデルの新たな定式化を提案する。
モデルパラメータを推定するためにギブスサンプリングアルゴリズムを用いてスライスサンプリングを行う。
このモデルは,コロナウイルスのテキストマイニング,雑貨買い物かごの分析,バロコロラド島(パナマ)の樹木種の生態という,3つの異なる領域の実際のデータセットを用いて説明されている。
論文 参考訳(メタデータ) (2022-02-18T19:58:24Z) - Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance [0.5735035463793008]
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
論文 参考訳(メタデータ) (2021-11-03T20:28:24Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Commutative Lie Group VAE for Disentanglement Learning [96.32813624341833]
本研究では,データに表される因子の変動を同変的に反映する基盤構造を見いだすこととして,非絡み合い学習を考察する。
グループベースの非絡み合い学習を実現するために、Communative Lie Group VAEというシンプルなモデルが導入された。
実験により,本モデルでは,教師なしの非絡み合い表現を効果的に学習し,余分な制約を伴わずに最先端のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-06-07T07:03:14Z) - Field-wise Learning for Multi-field Categorical Data [27.100048708707593]
マルチフィールド分類データを用いた新しい学習法を提案する。
これにより、モデルが各カテゴリに適合し、基礎となるデータの違いをよりよく捉えることができる。
2つの大規模データセットに対する実験結果から,本モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T01:10:14Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。