論文の概要: CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference
- arxiv url: http://arxiv.org/abs/2404.04979v1
- Date: Sun, 7 Apr 2024 14:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:22:29.681424
- Title: CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference
- Title(参考訳): CAVIAR: 正確な推論とロバスト推論のためのカテゴリ変数の埋め込み
- Authors: Anirban Mukherjee, Hannah Hanwen Chang,
- Abstract要約: 社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
- 参考スコア(独自算出の注目度): 0.2209921757303168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social science research often hinges on the relationship between categorical variables and outcomes. We introduce CAVIAR, a novel method for embedding categorical variables that assume values in a high-dimensional ambient space but are sampled from an underlying manifold. Our theoretical and numerical analyses outline challenges posed by such categorical variables in causal inference. Specifically, dynamically varying and sparse levels can lead to violations of the Donsker conditions and a failure of the estimation functionals to converge to a tight Gaussian process. Traditional approaches, including the exclusion of rare categorical levels and principled variable selection models like LASSO, fall short. CAVIAR embeds the data into a lower-dimensional global coordinate system. The mapping can be derived from both structured and unstructured data, and ensures stable and robust estimates through dimensionality reduction. In a dataset of direct-to-consumer apparel sales, we illustrate how high-dimensional categorical variables, such as zip codes, can be succinctly represented, facilitating inference and analysis.
- Abstract(参考訳): 社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
我々の理論的および数値解析は、因果推論におけるそのような分類変数による課題を概説している。
具体的には、動的に変化し、スパースレベルが変化すると、ドンスカー条件に違反し、推定関数が厳密なガウス過程に収束しない。
まれなカテゴリーレベルの排除やLASSOのような原則付き変数選択モデルなど、伝統的なアプローチは不足している。
CAVIARはデータを低次元のグローバル座標系に埋め込む。
マッピングは構造化データと非構造化データの両方から導出することができ、次元の減少を通じて安定かつ堅牢な推定を保証できる。
消費者直接アパレル販売のデータセットでは、zipコードのような高次元のカテゴリ変数が簡潔に表現され、推論と分析が容易であることを示す。
関連論文リスト
- Reducing the dimensionality and granularity in hierarchical categorical variables [2.089191490381739]
階層型分類変数の縮小表現を求める手法を提案する。
エンティティの埋め込みが階層的な環境でどのように適用できるかを示す。
提案手法を実際のデータセットに適用し,階層構造が元の階層構造よりも改善されていることを確認する。
論文 参考訳(メタデータ) (2024-03-06T11:09:36Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation [14.993705256147189]
条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T10:29:23Z) - Addressing Dynamic and Sparse Qualitative Data: A Hilbert Space
Embedding of Categorical Variables [0.26107298043931204]
因果推定のための定量的モデルに定性的データを組み込む新しい枠組みを提案する。
機能分析を使用して、よりニュアンスで柔軟なフレームワークを作成します。
シミュレーションの総合的証拠を用いて本モデルを検証し,その妥当性を実世界の研究で実証する。
論文 参考訳(メタデータ) (2023-08-22T20:40:31Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。