論文の概要: AssayMatch: Learning to Select Data for Molecular Activity Models
- arxiv url: http://arxiv.org/abs/2511.16087v1
- Date: Thu, 20 Nov 2025 06:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.498787
- Title: AssayMatch: Learning to Select Data for Molecular Activity Models
- Title(参考訳): AssayMatch: 分子活動モデルのためのデータ選択を学ぶ
- Authors: Vincent Fan, Regina Barzilay,
- Abstract要約: AssayMatchはデータ選択のためのフレームワークで、テストセットの関心に合わせたより小さく、より均質なトレーニングセットを構築する。
AssayMatchによって選択されたデータに基づいてトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルの性能を上回ることができることを示す。
- 参考スコア(独自算出の注目度): 21.367469322467418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of machine learning models in drug discovery is highly dependent on the quality and consistency of the underlying training data. Due to limitations in dataset sizes, many models are trained by aggregating bioactivity data from diverse sources, including public databases such as ChEMBL. However, this approach often introduces significant noise due to variability in experimental protocols. We introduce AssayMatch, a framework for data selection that builds smaller, more homogenous training sets attuned to the test set of interest. AssayMatch leverages data attribution methods to quantify the contribution of each training assay to model performance. These attribution scores are used to finetune language embeddings of text-based assay descriptions to capture not just semantic similarity, but also the compatibility between assays. Unlike existing data attribution methods, our approach enables data selection for a test set with unknown labels, mirroring real-world drug discovery campaigns where the activities of candidate molecules are not known in advance. At test time, embeddings finetuned with AssayMatch are used to rank all available training data. We demonstrate that models trained on data selected by AssayMatch are able to surpass the performance of the model trained on the complete dataset, highlighting its ability to effectively filter out harmful or noisy experiments. We perform experiments on two common machine learning architectures and see increased prediction capability over a strong language-only baseline for 9/12 model-target pairs. AssayMatch provides a data-driven mechanism to curate higher-quality datasets, reducing noise from incompatible experiments and improving the predictive power and data efficiency of models for drug discovery. AssayMatch is available at https://github.com/Ozymandias314/AssayMatch.
- Abstract(参考訳): 薬物発見における機械学習モデルの性能は、基礎となるトレーニングデータの品質と一貫性に大きく依存する。
データセットのサイズが制限されているため、多くのモデルは、ChEMBLなどの公開データベースを含む様々なソースからの生物活性データを集約することによって訓練される。
しかし、この手法は実験プロトコルにおける可変性に起因する大きなノイズをしばしば引き起こす。
AssayMatchは、データ選択のためのフレームワークで、より小さく、より均質なトレーニングセットを構築する。
AssayMatchは、データ属性手法を利用して、各トレーニングアッセイのモデルパフォーマンスへの貢献を定量化する。
これらの属性スコアは、テキストベースのアッセイ記述の言語埋め込みを微調整するために使用され、セマンティックな類似性だけでなく、アッセイ間の互換性も捉える。
既存のデータ帰属法とは異なり、本手法は未知のラベルを持つテストセットに対するデータ選択を可能にし、候補分子の活性が事前に分かっていない実世界の薬物発見キャンペーンを反映する。
テスト時には、AssayMatchで微調整された埋め込みを使用して、利用可能なトレーニングデータをランク付けする。
AssayMatchによって選択されたデータに基づいてトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルのパフォーマンスを上回ることを実証し、有害またはノイズの多い実験を効果的にフィルタリングする能力を強調した。
我々は2つの一般的な機械学習アーキテクチャの実験を行い、9/12のモデルとターゲットのペアに対して、強力な言語のみのベースライン上での予測能力の向上を確認した。
AssayMatchは、高品質なデータセットをキュレートするデータ駆動メカニズムを提供し、互換性のない実験からノイズを低減し、薬物発見のためのモデルの予測能力とデータ効率を改善する。
AssayMatchはhttps://github.com/Ozymandias314/AssayMatchで入手できる。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Tradeoffs in Resampling and Filtering for Imbalanced Classification [2.3605348648054454]
トレーニングデータを選択する異なる方法が、効率と効率のトレードオフをもたらすことを示す。
また、高度に不均衡なケースでは、ファーストパス検索モデルを用いたテストデータのフィルタリングが、トレーニングデータを選択するのと同じくらい、モデルの性能にとって重要であることも確認した。
論文 参考訳(メタデータ) (2022-08-31T21:40:47Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。