論文の概要: SHAP zero Explains Genomic Models with Near-zero Marginal Cost for Future Queried Sequences
- arxiv url: http://arxiv.org/abs/2410.19236v2
- Date: Fri, 20 Dec 2024 18:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 19:50:40.495529
- Title: SHAP zero Explains Genomic Models with Near-zero Marginal Cost for Future Queried Sequences
- Title(参考訳): SHAP 0は、将来のクェリシーケンスのためのほぼゼロのマージナルコストを持つゲノムモデルを説明する
- Authors: Darin Tsui, Aryan Musharaf, Yigit Efe Erginbas, Justin Singh Kang, Amirali Aghazadeh,
- Abstract要約: SHAP 0はシェープ値と相互作用を将来のクエリーシーケンスのほぼゼロの限界コストで推定する手法である。
SHAP 0は、最先端のアルゴリズムと比較して、償却計算コストの桁違いの削減を実現していることを示す。
- 参考スコア(独自算出の注目度): 0.5184615738004058
- License:
- Abstract: With the rapid growth of large-scale machine learning models in genomics, Shapley values have emerged as a popular method for model explanations due to their theoretical guarantees. While Shapley values explain model predictions locally for an individual input query sequence, extracting biological knowledge requires global explanation across thousands of input sequences. This demands exponential model evaluations per sequence, resulting in significant computational cost and carbon footprint. Herein, we develop SHAP zero, a method that estimates Shapley values and interactions with a near-zero marginal cost for future queried sequences after paying a one-time fee for model sketching. SHAP zero achieves this by establishing a surprisingly underexplored connection between the Shapley values and interactions and the Fourier transform of the model. Explaining two genomic models, one trained to predict guide RNA binding and the other to predict DNA repair outcome, we demonstrate that SHAP zero achieves orders of magnitude reduction in amortized computational cost compared to state-of-the-art algorithms, revealing almost all predictive motifs -- a finding previously inaccessible due to the combinatorial space of possible interactions.
- Abstract(参考訳): ゲノミクスにおける大規模機械学習モデルの急速な成長に伴い、Shapleyの値は理論的な保証のためにモデル説明の一般的な方法として現れてきた。
Shapleyの値は個々の入力クエリシーケンスのモデル予測を局所的に説明するが、生物学的知識の抽出には数千の入力シーケンスのグローバルな説明が必要である。
これにより、シーケンス毎の指数モデル評価が要求され、計算コストと炭素フットプリントが大幅に向上する。
本稿では,モデルスケッチに1回の手数料を支払った後,将来のクエリシーケンスに対して,シェープ値と相互作用をほぼゼロの限界コストで見積もる手法であるSHAP 0を開発する。
SHAP 0 は、シャプリーの値と相互作用とモデルのフーリエ変換の間の驚くほど過小評価された接続を確立することでこれを達成している。
ガイドRNA結合の予測とDNA修復結果の予測を訓練した2つのゲノムモデルを説明することで、SHAP 0は最先端のアルゴリズムと比較して、償却された計算コストの桁違いの削減を実現し、ほとんど全ての予測モチーフを明らかにする。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Shapley variable importance clouds for interpretable machine learning [2.830197032154301]
本報告では,最終モデルのSHAP解析におけるバイアス評価を回避するため,優れたモデルにまたがる情報をプールするShapley変数重要クラウドを提案する。
刑事司法データと電子カルテデータを用いたドン・アンド・ルーディン法とを比較検討した。
論文 参考訳(メタデータ) (2021-10-06T03:41:04Z) - Quantum-Assisted Feature Selection for Vehicle Price Prediction Modeling [0.0]
本研究では,一般平均情報係数やピアソン相関係数などの二元モデルとして検索を符号化する指標について検討する。
我々は,新しい指標を用いて合成データの最適部分集合を求めるための0.9の精度スコアを得る。
その結果、量子支援ルーチンを活用することで、予測モデル出力の品質を高めるソリューションが見つかることが分かりました。
論文 参考訳(メタデータ) (2021-04-08T20:48:44Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。