論文の概要: Error-controlled non-additive interaction discovery in machine learning models
- arxiv url: http://arxiv.org/abs/2408.17016v1
- Date: Fri, 30 Aug 2024 05:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:29:13.302304
- Title: Error-controlled non-additive interaction discovery in machine learning models
- Title(参考訳): 機械学習モデルにおける誤り制御非付加的相互作用発見
- Authors: Winston Chen, Yifan Jiang, William Stafford Noble, Yang Young Lu,
- Abstract要約: 信頼性の高い特徴相互作用発見のための新しい手法であるDiamondを紹介する。
Diamondは、偽発見率(FDR)を制御するためにModel-Xノックオフフレームワークを独自に統合する
シミュレーションと実データの両方に対する実験的な評価は、より信頼性の高いデータ駆動科学的な発見を可能にするダイアモンドの有用性を示している。
- 参考スコア(独自算出の注目度): 8.248260569247595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models are powerful tools for detecting complex patterns within data, yet their "black box" nature limits their interpretability, hindering their use in critical domains like healthcare and finance. To address this challenge, interpretable ML methods have been developed to explain how features influence model predictions. However, these methods often focus on univariate feature importance, overlooking the complex interactions between features that ML models are capable of capturing. Recognizing this limitation, recent efforts have aimed to extend these methods to discover feature interactions, but existing approaches struggle with robustness and error control, especially under data perturbations. In this study, we introduce Diamond, a novel method for trustworthy feature interaction discovery. Diamond uniquely integrates the model-X knockoffs framework to control the false discovery rate (FDR), ensuring that the proportion of falsely discovered interactions remains low. We further address the challenges of using off-the-shelf interaction importance measures by proposing a calibration procedure that refines these measures to maintain the desired FDR. Diamond's applicability spans a wide range of ML models, including deep neural networks, tree-based models, and factorization-based models. Our empirical evaluations on both simulated and real datasets across various biomedical studies demonstrate Diamond's utility in enabling more reliable data-driven scientific discoveries. This method represents a significant step forward in the deployment of ML models for scientific innovation and hypothesis generation.
- Abstract(参考訳): 機械学習(ML)モデルは、データ内の複雑なパターンを検出する強力なツールだが、その"ブラックボックス"の性質は解釈可能性を制限するため、医療や金融といった重要な領域での使用を妨げる。
この課題に対処するため、モデル予測にどう影響するかを説明するために、解釈可能なML手法が開発されている。
しかしながら、これらの手法は、MLモデルがキャプチャできる機能間の複雑な相互作用を見越して、一変量の特徴に重点を置いていることが多い。
この制限を認識した最近の取り組みは、これらの手法を拡張して特徴的相互作用を発見することを目的としているが、既存のアプローチは、特にデータ摂動の下で、堅牢性とエラー制御に苦慮している。
本研究では,信頼性の高い特徴相互作用発見のための新しい手法であるダイアモンドについて紹介する。
ダイヤモンドは、偽発見率(FDR)を制御するためにモデル-Xノックオフフレームワークを独自に統合し、偽発見された相互作用の割合が低いことを保証している。
さらに、これらの対策を洗練して所望のFDRを維持するキャリブレーション手順を提案することで、市販の相互作用重要度尺度を使用する際の課題に対処する。
ダイアモンドの適用性は、ディープニューラルネットワーク、ツリーベースモデル、ファクタライゼーションベースモデルなど、幅広いMLモデルにまたがる。
生体医学研究におけるシミュレーションと実データの両方に関する実証的な評価は、ダイアモンドがより信頼性の高いデータ駆動科学的な発見を可能にしたことを示すものである。
この方法は、科学的革新と仮説生成のためのMLモデルの展開において、重要な一歩である。
関連論文リスト
- You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Sparse Modelling for Feature Learning in High Dimensional Data [0.0]
本稿では,高次元データセットにおける次元削減と特徴抽出に対する革新的なアプローチを提案する。
提案フレームワークはスパースモデリング技術を包括的パイプラインに統合し,効率的かつ解釈可能な特徴選択を実現する。
我々は、特に木材表面欠陥検出の文脈において、機械学習におけるスパースモデリングの理解と応用を進めることを目的としている。
論文 参考訳(メタデータ) (2024-09-28T14:17:59Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Beyond Convergence: Identifiability of Machine Learning and Deep
Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。
我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。
その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文 参考訳(メタデータ) (2023-07-21T03:40:53Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。