論文の概要: Robust Molecular Property Prediction via Densifying Scarce Labeled Data
- arxiv url: http://arxiv.org/abs/2506.11877v1
- Date: Fri, 13 Jun 2025 15:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.848176
- Title: Robust Molecular Property Prediction via Densifying Scarce Labeled Data
- Title(参考訳): 密度化スカースラベルデータによるロバスト分子特性予測
- Authors: Jina Kim, Jeffrey Willette, Bruno Andreis, Sung Ju Hwang,
- Abstract要約: 薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。
実世界のデータセットに挑戦する上で、最先端の手法よりも顕著なパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 51.55434084913129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widely recognized limitation of molecular prediction models is their reliance on structures observed in the training data, resulting in poor generalization to out-of-distribution compounds. Yet in drug discovery, the compounds most critical for advancing research often lie beyond the training set, making the bias toward the training data particularly problematic. This mismatch introduces substantial covariate shift, under which standard deep learning models produce unstable and inaccurate predictions. Furthermore, the scarcity of labeled data, stemming from the onerous and costly nature of experimental validation, further exacerbates the difficulty of achieving reliable generalization. To address these limitations, we propose a novel meta-learning-based approach that leverages unlabeled data to interpolate between in-distribution (ID) and out-of-distribution (OOD) data, enabling the model to meta-learn how to generalize beyond the training distribution. We demonstrate significant performance gains over state-of-the-art methods on challenging real-world datasets that exhibit substantial covariate shift.
- Abstract(参考訳): 分子予測モデルの限界として広く認識されているのは、トレーニングデータで観測された構造に依存しているため、分布外化合物への一般化が不十分であることである。
しかし、薬物発見においては、研究を進める上で最も重要な化合物はトレーニングセットを超えていて、トレーニングデータに対する偏見が特に問題となることが多い。
このミスマッチは、標準的なディープラーニングモデルが不安定で不正確な予測を生成するような、かなりの共変量シフトをもたらす。
さらに,実験検証の煩雑でコストのかかる性質に起因したラベル付きデータの不足により,信頼性の高い一般化の実現が困難になる。
これらの制約に対処するために,未ラベルデータを利用したメタラーニング手法を提案する。
我々は,共変量シフトを示す実世界のデータセットに挑戦する最先端の手法に比べて,顕著な性能向上を示す。
関連論文リスト
- Generalization Error Analysis for Attack-Free and Byzantine-Resilient Decentralized Learning with Data Heterogeneity [23.509076905112526]
異種データを用いた非攻撃・ビザンチン弾力的な分散学習におけるきめ細粒度誤差解析について述べる。
また、悪意のあるエージェントによる攻撃がエラーに大きく影響していることも明らかにした。
論文 参考訳(メタデータ) (2025-06-11T06:44:34Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - FedGen: Generalizable Federated Learning for Sequential Data [8.784435748969806]
多くの実世界の分散環境では、バイアスとデータサンプリングの問題により、急激な相関が存在する。
我々はFedGenという汎用的なフェデレーション学習フレームワークを提案し、クライアントが素早い特徴と不変な特徴を識別および識別できるようにする。
FedGenは、より優れた一般化を実現し、現在のフェデレーション学習手法の精度を24%以上上回るモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:48:14Z) - Uncertainty-Aware Deep Co-training for Semi-supervised Medical Image
Segmentation [4.935055133266873]
本研究では,モデルが意図的に領域を学習するための新しい不確実性認識方式を提案する。
具体的には,不確実性マップを得るためにモンテカルロサンプリングを推定法として利用する。
後ろ向きのプロセスでは、ネットワークの収束を加速するために、教師なしの損失と教師なしの損失を共同で処理する。
論文 参考訳(メタデータ) (2021-11-23T03:26:24Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。