論文の概要: Error-controlled non-additive interaction discovery in machine learning models
- arxiv url: http://arxiv.org/abs/2408.17016v1
- Date: Fri, 30 Aug 2024 05:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:29:13.302304
- Title: Error-controlled non-additive interaction discovery in machine learning models
- Title(参考訳): 機械学習モデルにおける誤り制御非付加的相互作用発見
- Authors: Winston Chen, Yifan Jiang, William Stafford Noble, Yang Young Lu,
- Abstract要約: 信頼性の高い特徴相互作用発見のための新しい手法であるDiamondを紹介する。
Diamondは、偽発見率(FDR)を制御するためにModel-Xノックオフフレームワークを独自に統合する
シミュレーションと実データの両方に対する実験的な評価は、より信頼性の高いデータ駆動科学的な発見を可能にするダイアモンドの有用性を示している。
- 参考スコア(独自算出の注目度): 8.248260569247595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models are powerful tools for detecting complex patterns within data, yet their "black box" nature limits their interpretability, hindering their use in critical domains like healthcare and finance. To address this challenge, interpretable ML methods have been developed to explain how features influence model predictions. However, these methods often focus on univariate feature importance, overlooking the complex interactions between features that ML models are capable of capturing. Recognizing this limitation, recent efforts have aimed to extend these methods to discover feature interactions, but existing approaches struggle with robustness and error control, especially under data perturbations. In this study, we introduce Diamond, a novel method for trustworthy feature interaction discovery. Diamond uniquely integrates the model-X knockoffs framework to control the false discovery rate (FDR), ensuring that the proportion of falsely discovered interactions remains low. We further address the challenges of using off-the-shelf interaction importance measures by proposing a calibration procedure that refines these measures to maintain the desired FDR. Diamond's applicability spans a wide range of ML models, including deep neural networks, tree-based models, and factorization-based models. Our empirical evaluations on both simulated and real datasets across various biomedical studies demonstrate Diamond's utility in enabling more reliable data-driven scientific discoveries. This method represents a significant step forward in the deployment of ML models for scientific innovation and hypothesis generation.
- Abstract(参考訳): 機械学習(ML)モデルは、データ内の複雑なパターンを検出する強力なツールだが、その"ブラックボックス"の性質は解釈可能性を制限するため、医療や金融といった重要な領域での使用を妨げる。
この課題に対処するため、モデル予測にどう影響するかを説明するために、解釈可能なML手法が開発されている。
しかしながら、これらの手法は、MLモデルがキャプチャできる機能間の複雑な相互作用を見越して、一変量の特徴に重点を置いていることが多い。
この制限を認識した最近の取り組みは、これらの手法を拡張して特徴的相互作用を発見することを目的としているが、既存のアプローチは、特にデータ摂動の下で、堅牢性とエラー制御に苦慮している。
本研究では,信頼性の高い特徴相互作用発見のための新しい手法であるダイアモンドについて紹介する。
ダイヤモンドは、偽発見率(FDR)を制御するためにモデル-Xノックオフフレームワークを独自に統合し、偽発見された相互作用の割合が低いことを保証している。
さらに、これらの対策を洗練して所望のFDRを維持するキャリブレーション手順を提案することで、市販の相互作用重要度尺度を使用する際の課題に対処する。
ダイアモンドの適用性は、ディープニューラルネットワーク、ツリーベースモデル、ファクタライゼーションベースモデルなど、幅広いMLモデルにまたがる。
生体医学研究におけるシミュレーションと実データの両方に関する実証的な評価は、ダイアモンドがより信頼性の高いデータ駆動科学的な発見を可能にしたことを示すものである。
この方法は、科学的革新と仮説生成のためのMLモデルの展開において、重要な一歩である。
関連論文リスト
- Loss Landscape Analysis for Reliable Quantized ML Models for Scientific Sensing [41.89148096989836]
機械学習(ML)モデルの損失景観を実証分析する手法を提案する。
本手法は,MLモデルのロバスト性を,量子化精度の関数や異なる正規化手法の下で評価することができる。
論文 参考訳(メタデータ) (2025-02-12T12:30:49Z) - REX: Causal Discovery based on Machine Learning and Explainability techniques [0.13108652488669734]
本稿では、機械学習(ML)モデルと説明可能性技術、特にShapley値を組み合わせた因果発見手法であるREXを紹介する。
REXは、非線形および付加的なノイズモデルを含む様々なデータ生成プロセスにおいて、最先端の因果発見手法より優れている。
REXは予測モデリングと因果推論のギャップを埋め、複雑な因果構造を理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2025-01-22T08:23:10Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。