論文の概要: Error-controlled non-additive interaction discovery in machine learning models
- arxiv url: http://arxiv.org/abs/2408.17016v1
- Date: Fri, 30 Aug 2024 05:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-02 16:29:13.302304
- Title: Error-controlled non-additive interaction discovery in machine learning models
- Title(参考訳): 機械学習モデルにおける誤り制御非付加的相互作用発見
- Authors: Winston Chen, Yifan Jiang, William Stafford Noble, Yang Young Lu,
- Abstract要約: 信頼性の高い特徴相互作用発見のための新しい手法であるDiamondを紹介する。
Diamondは、偽発見率(FDR)を制御するためにModel-Xノックオフフレームワークを独自に統合する
シミュレーションと実データの両方に対する実験的な評価は、より信頼性の高いデータ駆動科学的な発見を可能にするダイアモンドの有用性を示している。
- 参考スコア(独自算出の注目度): 8.248260569247595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models are powerful tools for detecting complex patterns within data, yet their "black box" nature limits their interpretability, hindering their use in critical domains like healthcare and finance. To address this challenge, interpretable ML methods have been developed to explain how features influence model predictions. However, these methods often focus on univariate feature importance, overlooking the complex interactions between features that ML models are capable of capturing. Recognizing this limitation, recent efforts have aimed to extend these methods to discover feature interactions, but existing approaches struggle with robustness and error control, especially under data perturbations. In this study, we introduce Diamond, a novel method for trustworthy feature interaction discovery. Diamond uniquely integrates the model-X knockoffs framework to control the false discovery rate (FDR), ensuring that the proportion of falsely discovered interactions remains low. We further address the challenges of using off-the-shelf interaction importance measures by proposing a calibration procedure that refines these measures to maintain the desired FDR. Diamond's applicability spans a wide range of ML models, including deep neural networks, tree-based models, and factorization-based models. Our empirical evaluations on both simulated and real datasets across various biomedical studies demonstrate Diamond's utility in enabling more reliable data-driven scientific discoveries. This method represents a significant step forward in the deployment of ML models for scientific innovation and hypothesis generation.
- Abstract(参考訳): 機械学習(ML)モデルは、データ内の複雑なパターンを検出する強力なツールだが、その"ブラックボックス"の性質は解釈可能性を制限するため、医療や金融といった重要な領域での使用を妨げる。
この課題に対処するため、モデル予測にどう影響するかを説明するために、解釈可能なML手法が開発されている。
しかしながら、これらの手法は、MLモデルがキャプチャできる機能間の複雑な相互作用を見越して、一変量の特徴に重点を置いていることが多い。
この制限を認識した最近の取り組みは、これらの手法を拡張して特徴的相互作用を発見することを目的としているが、既存のアプローチは、特にデータ摂動の下で、堅牢性とエラー制御に苦慮している。
本研究では,信頼性の高い特徴相互作用発見のための新しい手法であるダイアモンドについて紹介する。
ダイヤモンドは、偽発見率(FDR)を制御するためにモデル-Xノックオフフレームワークを独自に統合し、偽発見された相互作用の割合が低いことを保証している。
さらに、これらの対策を洗練して所望のFDRを維持するキャリブレーション手順を提案することで、市販の相互作用重要度尺度を使用する際の課題に対処する。
ダイアモンドの適用性は、ディープニューラルネットワーク、ツリーベースモデル、ファクタライゼーションベースモデルなど、幅広いMLモデルにまたがる。
生体医学研究におけるシミュレーションと実データの両方に関する実証的な評価は、ダイアモンドがより信頼性の高いデータ駆動科学的な発見を可能にしたことを示すものである。
この方法は、科学的革新と仮説生成のためのMLモデルの展開において、重要な一歩である。
関連論文リスト
- Loss Landscape Analysis for Reliable Quantized ML Models for Scientific Sensing [41.89148096989836]
機械学習(ML)モデルの損失景観を実証分析する手法を提案する。
本手法は,MLモデルのロバスト性を,量子化精度の関数や異なる正規化手法の下で評価することができる。
論文 参考訳(メタデータ) (2025-02-12T12:30:49Z) - REX: Causal Discovery based on Machine Learning and Explainability techniques [0.13108652488669734]
本稿では、機械学習(ML)モデルと説明可能性技術、特にShapley値を組み合わせた因果発見手法であるREXを紹介する。
REXは、非線形および付加的なノイズモデルを含む様々なデータ生成プロセスにおいて、最先端の因果発見手法より優れている。
REXは予測モデリングと因果推論のギャップを埋め、複雑な因果構造を理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2025-01-22T08:23:10Z) - You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Sparse Modelling for Feature Learning in High Dimensional Data [0.0]
本稿では,高次元データセットにおける次元削減と特徴抽出に対する革新的なアプローチを提案する。
提案フレームワークはスパースモデリング技術を包括的パイプラインに統合し,効率的かつ解釈可能な特徴選択を実現する。
我々は、特に木材表面欠陥検出の文脈において、機械学習におけるスパースモデリングの理解と応用を進めることを目的としている。
論文 参考訳(メタデータ) (2024-09-28T14:17:59Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Beyond Convergence: Identifiability of Machine Learning and Deep
Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。
我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。
その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文 参考訳(メタデータ) (2023-07-21T03:40:53Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。