論文の概要: SHAP zero Explains Biological Sequence Models with Near-zero Marginal Cost for Future Queries
- arxiv url: http://arxiv.org/abs/2410.19236v4
- Date: Thu, 22 May 2025 14:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 12:25:14.935931
- Title: SHAP zero Explains Biological Sequence Models with Near-zero Marginal Cost for Future Queries
- Title(参考訳): SHAP 0は、将来のクエリーにほぼゼロのマージナルコストを持つ生物学的シーケンスモデルを説明する
- Authors: Darin Tsui, Aryan Musharaf, Yigit Efe Erginbas, Justin Singh Kang, Amirali Aghazadeh,
- Abstract要約: SHAP 0は、大規模な生物学的データセット間でShapley値のコストを償却する新しいアルゴリズムである。
1回のモデルスケッチのステップの後、SHAP 0は将来のクエリでほぼゼロの限界コストを実現する。
この研究は、生物学におけるブラックボックスシーケンスモデルの原理的、効率的、スケーラブルな解釈可能性への扉を開く。
- 参考スコア(独自算出の注目度): 0.5184615738004058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing adoption of machine learning models for biological sequences has intensified the need for interpretable predictions, with Shapley values emerging as a theoretically grounded standard for model explanation. While effective for local explanations of individual input sequences, scaling Shapley-based interpretability to extract global biological insights requires evaluating thousands of sequences--incurring exponential computational cost per query. We introduce SHAP zero, a novel algorithm that amortizes the cost of Shapley value computation across large-scale biological datasets. After a one-time model sketching step, SHAP zero enables near-zero marginal cost for future queries by uncovering an underexplored connection between Shapley values, high-order feature interactions, and the sparse Fourier transform of the model. Applied to models of guide RNA efficacy, DNA repair outcomes, and protein fitness, SHAP zero explains predictions orders of magnitude faster than existing methods, recovering rich combinatorial interactions previously inaccessible at scale. This work opens the door to principled, efficient, and scalable interpretability for black-box sequence models in biology.
- Abstract(参考訳): 生物学的配列に対する機械学習モデルの採用が増加し、解釈可能な予測の必要性が高まっている。
個々の入力シーケンスの局所的な説明には有効であるが、グローバルな生物学的洞察を抽出するためのシェープリーベースの解釈可能性のスケーリングには、クエリ毎の指数計算コストの増大による数千のシーケンスの評価が必要である。
SHAP 0は,大規模生物データセットにおけるShapley値計算のコストを補正する新しいアルゴリズムである。
1回のモデルスケッチのステップの後、SHAP 0はシェープリー値、高次特徴相互作用、スパースフーリエ変換の間の未探索接続を明らかにすることで、将来のクエリに対するほぼゼロの限界コストを実現する。
SHAP 0は、ガイドRNAの有効性、DNA修復結果、タンパク質の適合性のモデルに応用され、既存の方法よりも桁違いに早く予測し、以前は大規模ではアクセスできないリッチなコンビネータ相互作用を回復する。
この研究は、生物学におけるブラックボックスシーケンスモデルの原理的、効率的、スケーラブルな解釈可能性への扉を開く。
関連論文リスト
- Gradient Regularization-based Neural Granger Causality [1.7365653221505928]
グラディエント正規化に基づくニューラルグラガー因果性(GRNGC)を提案する。
GRNGCは1つの時系列予測モデルのみを必要とし、モデルの入力と出力の勾配に$L_1$正規化を適用して、グランガー因果関係を推測する。
DREAM、Lorenz-96、fMRI、CausalTimeの数値シミュレーションにより、GRNGCは既存のベースラインよりも優れ、計算オーバーヘッドを大幅に削減することが示された。
論文 参考訳(メタデータ) (2025-07-15T10:35:29Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Models [21.698201509643624]
概念に基づくネットワークのような自己解釈型モデルは、決定を人間の理解可能な概念に結びつけることによって洞察を与える。
シャプリー値のようなポストホック法は理論的には堅牢であるが、計算コストが高く、資源集約的である。
ブラックボックスモデルに対する理論的に保証された自己解釈性を提供する。
論文 参考訳(メタデータ) (2024-10-29T07:35:33Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Wasserstein proximal operators describe score-based generative models
and resolve memorization [12.321631823103894]
We first formulate SGMs with terms of Wasserstein proximal operator (WPO)
We show that WPO describe the inductive bias of diffusion and score-based model。
本稿では,SGMの性能を劇的に向上させる,スコア関数の解釈可能なカーネルベースモデルを提案する。
論文 参考訳(メタデータ) (2024-02-09T03:33:13Z) - Variational Shapley Network: A Probabilistic Approach to Self-Explaining
Shapley values with Uncertainty Quantification [2.6699011287124366]
シェープ価値は、モデル決定プロセスの解明のための機械学習(ML)の基礎ツールとして現れている。
本稿では,Shapley値の計算を大幅に単純化し,単一のフォワードパスしか必要としない,新しい自己説明手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T18:09:05Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Bandit Theory and Thompson Sampling-Guided Directed Evolution for
Sequence Optimization [38.547378870770956]
本稿では,シーケンス最適化のためのトンプソンサンプリング誘導指向進化(TS-DE)フレームワークを提案する。
TS-DE は、$tilde O(d2sqrtMT)$, $d$ is feature dimension, $M$ is population size, $T$ is number of rounds のベイズ的後悔を楽しむことを示す。
これはより一般的なシーケンス最適化と進化的アルゴリズムに影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-05T03:48:42Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Shapley variable importance clouds for interpretable machine learning [2.830197032154301]
本報告では,最終モデルのSHAP解析におけるバイアス評価を回避するため,優れたモデルにまたがる情報をプールするShapley変数重要クラウドを提案する。
刑事司法データと電子カルテデータを用いたドン・アンド・ルーディン法とを比較検討した。
論文 参考訳(メタデータ) (2021-10-06T03:41:04Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Quantum-Assisted Feature Selection for Vehicle Price Prediction Modeling [0.0]
本研究では,一般平均情報係数やピアソン相関係数などの二元モデルとして検索を符号化する指標について検討する。
我々は,新しい指標を用いて合成データの最適部分集合を求めるための0.9の精度スコアを得る。
その結果、量子支援ルーチンを活用することで、予測モデル出力の品質を高めるソリューションが見つかることが分かりました。
論文 参考訳(メタデータ) (2021-04-08T20:48:44Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - A Compact Gated-Synapse Model for Neuromorphic Circuits [77.50840163374757]
このモデルは、ニューロモルフィック回路のコンピュータ支援設計への統合を容易にするためにVerilog-Aで開発された。
モデルの振る舞い理論は、デフォルトパラメータ設定の完全なリストとともに詳細に記述されている。
論文 参考訳(メタデータ) (2020-06-29T18:22:11Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。