論文の概要: Uncertainty-Guided Model Selection for Tabular Foundation Models in Biomolecule Efficacy Prediction
- arxiv url: http://arxiv.org/abs/2510.02476v1
- Date: Thu, 02 Oct 2025 18:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.130071
- Title: Uncertainty-Guided Model Selection for Tabular Foundation Models in Biomolecule Efficacy Prediction
- Title(参考訳): 生体分子効率予測におけるタブラル基礎モデルの不確かさ誘導モデル選択
- Authors: Jie Li, Andrew McCarthy, Zhizhuo Zhang, Stephen Young,
- Abstract要約: 本研究では,モデル選択のための不確実性誘導戦略について検討する。
単純なシーケンスベースの特徴を用いたTabPFNモデルが、最先端の予測器を超越できることを示す。
- 参考スコア(独自算出の注目度): 3.108481950101193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learners like TabPFN are promising for biomolecule efficacy prediction, where established molecular feature sets and relevant experimental results can serve as powerful contextual examples. However, their performance is highly sensitive to the provided context, making strategies like post-hoc ensembling of models trained on different data subsets a viable approach. An open question is how to select the best models for the ensemble without access to ground truth labels. In this study, we investigate an uncertainty-guided strategy for model selection. We demonstrate on an siRNA knockdown efficacy task that a TabPFN model using simple sequence-based features can surpass specialized state-of-the-art predictors. We also show that the model's predicted inter-quantile range (IQR), a measure of its uncertainty, has a negative correlation with true prediction error. By selecting and averaging an ensemble of models with the lowest mean IQR, we achieve superior performance compared to naive ensembling or using a single model trained on all available data. This finding highlights model uncertainty as a powerful, label-free heuristic for optimizing biomolecule efficacy predictions.
- Abstract(参考訳): TabPFNのようなコンテキスト内学習者は、確立された分子の特徴セットと関連する実験結果が強力な文脈例として機能するバイオ分子効果の予測を約束している。
しかし、それらのパフォーマンスは提供されたコンテキストに非常に敏感であり、異なるデータサブセットでトレーニングされたモデルのポストホックアンサンブルのような戦略を実行可能なアプローチにする。
オープンな疑問は、真実のラベルにアクセスすることなく、アンサンブルのための最良のモデルを選択する方法である。
本研究では,モデル選択のための不確実性誘導戦略について検討する。
本稿では、単純なシーケンスベースの特徴を用いたTabPFNモデルが特定の最先端予測を超越できるsiRNAノックダウンの有効性を実証する。
また、その不確実性の尺度である予測量子間距離(IQR)が真の予測誤差と負の相関を持つことを示す。
最も低い平均IQRでモデルのアンサンブルを選択して平均化することにより、簡単なアンサンブルや、利用可能なすべてのデータでトレーニングされた単一のモデルを使用するよりも優れたパフォーマンスを実現する。
この発見は、バイオ分子効果の予測を最適化するための強力なラベルのないヒューリスティックとして、モデルの不確実性を強調している。
関連論文リスト
- Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。