論文の概要: Validity of Feature Importance in Low-Performing Machine Learning for Tabular Biomedical Data
- arxiv url: http://arxiv.org/abs/2409.13342v1
- Date: Fri, 20 Sep 2024 09:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:40:00.673691
- Title: Validity of Feature Importance in Low-Performing Machine Learning for Tabular Biomedical Data
- Title(参考訳): タブラルバイオメディカルデータのための低性能機械学習における特徴重要度の有効性
- Authors: Youngro Lee, Giacomo Baruzzo, Jeonghwan Kim, Jongmo Seo, Barbara Di Camillo,
- Abstract要約: 性能の低いモデルも特徴として有用であることを示す。
完全なデータセットから得られた特徴のランクを、サンプルサイズ(データカット)を減らしたもの(機能カット)または少ないもの(機能カット)と比較する。
データサイズが十分であれば,性能の低いレベルでも,機能の重要性の妥当性を維持することができると結論付けた。
- 参考スコア(独自算出の注目度): 3.277376195731554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In tabular biomedical data analysis, tuning models to high accuracy is considered a prerequisite for discussing feature importance, as medical practitioners expect the validity of feature importance to correlate with performance. In this work, we challenge the prevailing belief, showing that low-performing models may also be used for feature importance. We propose experiments to observe changes in feature rank as performance degrades sequentially. Using three synthetic datasets and six real biomedical datasets, we compare the rank of features from full datasets to those with reduced sample sizes (data cutting) or fewer features (feature cutting). In synthetic datasets, feature cutting does not change feature rank, while data cutting shows higher discrepancies with lower performance. In real datasets, feature cutting shows similar or smaller changes than data cutting, though some datasets exhibit the opposite. When feature interactions are controlled by removing correlations, feature cutting consistently shows better stability. By analyzing the distribution of feature importance values and theoretically examining the probability that the model cannot distinguish feature importance between features, we reveal that models can still distinguish feature importance despite performance degradation through feature cutting, but not through data cutting. We conclude that the validity of feature importance can be maintained even at low performance levels if the data size is adequate, which is a significant factor contributing to suboptimal performance in tabular medical data analysis. This paper demonstrates the potential for utilizing feature importance analysis alongside statistical analysis to compare features relatively, even when classifier performance is not satisfactory.
- Abstract(参考訳): 表型バイオメディカルデータ分析では,特徴の重要性を議論する上で,高精度のチューニングモデルが必須であると考えられる。
本研究では,性能の低いモデルも特徴として有用であることを示すとともに,一般的な信念に挑戦する。
性能が連続的に低下するにつれて特徴量の変化を観測する実験を提案する。
3つの合成データセットと6つの実バイオメディカルデータセットを用いて、完全なデータセットから得られた特徴のランクを、サンプルサイズ(データ切断)が減ったもの(機能切断)または少ないもの(機能切断)と比較する。
合成データセットでは、特徴切断は特徴ランクを変えないが、データ切断は低い性能で高い相違を示す。
実際のデータセットでは、フィーチャーカットはデータカットと同じような、あるいは小さな変更を示しているが、いくつかのデータセットは反対である。
相関を除去することで特徴の相互作用が制御される場合、特徴の切断は安定した安定性を示す。
特徴値の分布を解析し,そのモデルが特徴間の特徴重要度を区別できない可能性を理論的に検証することにより,特徴切断による性能劣化にもかかわらず,データ切断によるものではないにもかかわらず,モデルが特徴重要度を識別できることを明らかにする。
本研究は,データサイズが十分であれば,低性能レベルでも特徴重要度を維持可能であると結論付け,表型医療データ解析における最適下地性能に寄与する重要な要因である。
本稿では,分類器の性能が十分でない場合でも,特徴量分析と統計解析を併用して相対的に特徴量を比較する可能性を示す。
関連論文リスト
- Common Steps in Machine Learning Might Hinder The Explainability Aims in Medicine [0.0]
本稿では、機械学習におけるデータ前処理のステップとそのモデルの説明可能性および解釈可能性への影響について論じる。
これらのステップはモデルの精度を向上させるが、特に医学において慎重に考慮されていない場合、モデルの説明可能性を妨げる可能性がある。
論文 参考訳(メタデータ) (2024-08-30T12:09:14Z) - Synthetic Simplicity: Unveiling Bias in Medical Data Augmentation [0.7499722271664144]
医用画像などのデータ共有分野において、合成データがますます重要になっている。
下流のニューラルネットワークは、しばしば、データソースとタスクラベルの間に強い相関があるときに、実データと合成データの急激な区別を利用する。
このエクスプロイトは、真のタスク関連の複雑さではなく、表面的な特徴に過度に依存する、テクスティシビティ単純性バイアスとして現れます。
論文 参考訳(メタデータ) (2024-07-31T15:14:17Z) - Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Cluster Metric Sensitivity to Irrelevant Features [0.0]
異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
以上の結果から,シルエット係数とデイビー=ボルディンスコアは,無関係な付加機能に対して最も敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-02-19T10:02:00Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data [3.631918877491949]
本稿では,生データから得られる特徴量と合成データから得られる特徴量との一致を実証的に分析する。
プライバシのレベルによって異なるため、さまざまなユーティリティー対策を適用して、特徴的重要性の合意を定量化します。
この研究は、金融や医療といった分野において、高感度データセットの合成バージョンを開発する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-02T19:11:43Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Removing Spurious Features can Hurt Accuracy and Affect Groups
Disproportionately [83.68135652247496]
自然な修正は、モデルからスプリアスな特徴を取り除くことである。
誘導バイアスによる突発的特徴の除去は精度を低下させる可能性が示唆された。
また,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示した。
論文 参考訳(メタデータ) (2020-12-07T23:08:59Z) - Nonparametric Feature Impact and Importance [0.6123324869194193]
データ上で直接動作する部分依存曲線から導かれる特徴的影響と重要性の数学的定義を与える。
品質を評価するために、これらの定義によってランク付けされた特徴は、既存の特徴選択技術と競合することを示す。
論文 参考訳(メタデータ) (2020-06-08T17:07:35Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。