論文の概要: Interpretable Generalized Additive Models for Datasets with Missing Values
- arxiv url: http://arxiv.org/abs/2412.02646v2
- Date: Thu, 12 Dec 2024 22:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:15.702329
- Title: Interpretable Generalized Additive Models for Datasets with Missing Values
- Title(参考訳): 欠落値を持つデータセットに対する解釈可能な一般化加法モデル
- Authors: Hayden McTavish, Jon Donnelly, Margo Seltzer, Cynthia Rudin,
- Abstract要約: M-GAMは、不足度指標とその相互作用項を組み込んだスパースで一般化された付加的モデリング手法である。
我々は,M-GAMが従来の手法と類似あるいは類似した精度を提供するとともに,インプット変数の内包や内包に対する空間性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 17.123919441593152
- License:
- Abstract: Many important datasets contain samples that are missing one or more feature values. Maintaining the interpretability of machine learning models in the presence of such missing data is challenging. Singly or multiply imputing missing values complicates the model's mapping from features to labels. On the other hand, reasoning on indicator variables that represent missingness introduces a potentially large number of additional terms, sacrificing sparsity. We solve these problems with M-GAM, a sparse, generalized, additive modeling approach that incorporates missingness indicators and their interaction terms while maintaining sparsity through l0 regularization. We show that M-GAM provides similar or superior accuracy to prior methods while significantly improving sparsity relative to either imputation or naive inclusion of indicator variables.
- Abstract(参考訳): 多くの重要なデータセットには、1つ以上の特徴値が欠けているサンプルが含まれている。
このような欠落したデータが存在する場合、機械学習モデルの解釈可能性を維持することは困難である。
機能からラベルへのモデルのマッピングが複雑になる。
一方、不足を表す指標変数の推論は、余剰を犠牲にして、潜在的に多くの追加用語をもたらす。
我々はこれらの問題を,l0正則化による疎性を維持しつつ,不足度指標とその相互作用項を組み込んだ,疎結合で一般化された付加的モデリング手法であるM-GAMを用いて解決する。
我々は,M-GAMが従来の手法と類似あるいは類似した精度を提供するとともに,インプット変数の内包や内包に対する空間性を大幅に向上することを示した。
関連論文リスト
- Joint Models for Handling Non-Ignorable Missing Data using Bayesian Additive Regression Trees: Application to Leaf Photosynthetic Traits Data [0.0]
欠落したデータに対する対処は、予測分析において大きな課題となる。
データがランダムに欠落している場合、データのモデリングとデータインジケータの欠落が不可欠である。
本稿では,データ不足を伴うデータ処理のための選択モデルに基づく2つの手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:26:55Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Curve Your Enthusiasm: Concurvity Regularization in Differentiable
Generalized Additive Models [5.519653885553456]
GAM(Generalized Additive Models)はその解釈可能性のために最近人気が回復した。
我々は,GAMの解釈可能性の低下がいかに深刻かを示す。
線形変換しない特徴変数の相互相関をペナルティ化した,概念的には単純だが効果的な正則化器を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:55:49Z) - The Missing Indicator Method: From Low to High Dimensions [16.899237833310064]
データ不足は応用データ科学、特に医療、社会科学、自然科学でよく見られる。
情報に欠けるパターンを持つデータセットでは、Missing Indicator Method (MIM) とインプットを併用してモデル性能を向上させることができる。
実験により,MIMは情報不足値のパフォーマンスを向上することを示すとともに,情報不足値に対する線形モデルに悪影響を及ぼさないことを示す。
Selective MIMは、情報不足パターンを持つ機能にのみ、欠落指標を追加する手法である。
論文 参考訳(メタデータ) (2022-11-16T23:10:45Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - NeuMiss networks: differentiable programming for supervised learning
with missing values [0.0]
線形性仮定の下で最適予測器の解析形式を導出する。
我々はNeuMissネットワークという新しい原則アーキテクチャを提案する。
パラメータの数と、欠落したデータパターンの数に依存しない計算複雑性の両方で、予測精度が良い。
論文 参考訳(メタデータ) (2020-07-03T11:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。