論文の概要: Decorrelated feature importance from local sample weighting
- arxiv url: http://arxiv.org/abs/2508.06337v1
- Date: Fri, 08 Aug 2025 14:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.25105
- Title: Decorrelated feature importance from local sample weighting
- Title(参考訳): 局所試料重み付けによる劣化関連特徴
- Authors: Benedikt Fröhlich, Alison Durst, Merle Behr,
- Abstract要約: 局所的なサンプル重み付け(losaw)は、多くの機械学習アルゴリズムに統合して、特徴重要度(FI)スコアを改善することができる。
決定木に基づくML手法やニューラルネットワークのミニバッチトレーニングにロソーをどのように組み込むかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature importance (FI) statistics provide a prominent and valuable method of insight into the decision process of machine learning (ML) models, but their effectiveness has well-known limitations when correlation is present among the features in the training data. In this case, the FI often tends to be distributed among all features which are in correlation with the response-generating signal features. Even worse, if multiple signal features are in strong correlation with a noise feature, while being only modestly correlated with one another, this can result in a noise feature having a distinctly larger FI score than any signal feature. Here we propose local sample weighting (losaw) which can flexibly be integrated into many ML algorithms to improve FI scores in the presence of feature correlation in the training data. Our approach is motivated from inverse probability weighting in causal inference and locally, within the ML model, uses a sample weighting scheme to decorrelate a target feature from the remaining features. This reduces model bias locally, whenever the effect of a potential signal feature is evaluated and compared to others. Moreover, losaw comes with a natural tuning parameter, the minimum effective sample size of the weighted population, which corresponds to an interpretation-prediction-tradeoff, analog to a bias-variance-tradeoff as for classical ML tuning parameters. We demonstrate how losaw can be integrated within decision tree-based ML methods and within mini-batch training of neural networks. We investigate losaw for random forest and convolutional neural networks in a simulation study on settings showing diverse correlation patterns. We found that losaw improves FI consistently. Moreover, it often improves prediction accuracy for out-of-distribution, while maintaining a similar accuracy for in-distribution test data.
- Abstract(参考訳): 特徴重要度(FI)統計は、機械学習(ML)モデルの決定過程に関する顕著で価値のある知見を提供するが、その有効性は、トレーニングデータの特徴間に相関が存在する場合によく知られた制限がある。
この場合、FIは応答生成信号の特徴と相関する全ての特徴に分散する傾向にある。
さらに悪いことに、複数の信号特徴がノイズ特徴と強い相関関係にある一方で、緩やかな相関関係にある場合、これはどの信号特徴よりも明らかに大きなFIスコアを持つノイズ特徴をもたらす可能性がある。
本稿では,多くのMLアルゴリズムに柔軟に統合可能な局所サンプル重み付け(losaw)を提案する。
我々の手法は因果推論における逆確率重み付けから動機づけられており、MLモデルでは、サンプル重み付け方式を用いて、残りの特徴と対象特徴の相関付けを行う。
これにより、潜在的な信号の特徴が評価され、他と比較しても、モデルバイアスが局所的に減少する。
さらに、ロソーは、古典的なMLチューニングパラメータのバイアス・分散・トレーオフに類似した解釈・予測・トレーオフに対応する、重み付き集団の最小有効サンプルサイズである自然なチューニングパラメータを伴っている。
決定木に基づくML手法やニューラルネットワークのミニバッチトレーニングにおいて、losawをどのように統合できるかを実証する。
多様な相関パターンを示す設定に関するシミュレーション研究において,ランダム森林と畳み込みニューラルネットワークのロソーについて検討した。
ロソーはFIを継続的に改善することがわかった。
さらに、配信外テストデータの類似した精度を維持しつつ、配信外テストデータの予測精度を向上することがしばしばある。
関連論文リスト
- A Simple Approximate Bayesian Inference Neural Surrogate for Stochastic Petri Net Models [0.0]
後部分布フレームワークのニューラルネットワークに基づく近似を導入する。
我々のモデルは、Gilespie-simulated SPN realizations上で訓練された1D Convolutional Residual Networkを使用する。
20%の欠落事象を持つ合成SPNでは, RMSE = 0.108で速度関数係数を回復し, 従来のベイズ手法よりもかなり高速に動作する。
論文 参考訳(メタデータ) (2025-07-14T18:31:19Z) - Joint Graph Estimation and Signal Restoration for Robust Federated Learning [11.817062392718807]
本稿では,雑音の多いコミュニケーション下でのフェデレート学習(FL)におけるモデルパラメータのロバスト集約手法を提案する。
提案手法は,バイアスデータと雑音条件下での分類精度を最大2ドル~5ドルに向上することを示す。
論文 参考訳(メタデータ) (2025-05-16T19:17:59Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。
我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Fast covariance parameter estimation of spatial Gaussian process models
using neural networks [0.0]
我々はnnを入力として適度な大きさの空間場または変量線を取り、範囲と信号間の共分散パラメータを返すように訓練する。
トレーニングが完了すると、nnsはml推定と同等の精度で見積もりを提供し、100倍以上のスピードアップを行う。
この作業は、他のより複雑な空間問題に容易に拡張することができ、計算統計における機械学習の使用に対する概念の証明を提供する。
論文 参考訳(メタデータ) (2020-12-30T22:06:26Z) - Error Autocorrelation Objective Function for Improved System Modeling [1.2760453906939444]
我々は,誤差を最小限に抑えるだけでなく,誤差間の相関を最小化する「ホワイトニング」コスト関数「Ljung-Box statistic」を導入する。
その結果、リカレントニューラルネットワーク(RNN)とイメージオートエンコーダ(2d)の一般化が大幅に改善された。
論文 参考訳(メタデータ) (2020-08-08T19:20:32Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。