論文の概要: A Semi-supervised Molecular Learning Framework for Activity Cliff Estimation
- arxiv url: http://arxiv.org/abs/2601.04507v1
- Date: Thu, 08 Jan 2026 02:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.987632
- Title: A Semi-supervised Molecular Learning Framework for Activity Cliff Estimation
- Title(参考訳): 活性クリフ推定のための半教師付き分子学習フレームワーク
- Authors: Fang Wu,
- Abstract要約: そこで本研究では,SemiMolと呼ばれる新しい半教師付き学習手法を提案する。
SemiMolは、後続のトレーニングに擬似信号として、多くの無注釈データに対する予測を使用する。
また,SemiMolはグラフベースのMLアーキテクチャを大幅に強化し,最先端の事前トレーニングやSSLベースラインを克服することを示す。
- 参考スコア(独自算出の注目度): 10.640733919289643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) enables accurate and fast molecular property predictions, which are of interest in drug discovery and material design. Their success is based on the principle of similarity at its heart, assuming that similar molecules exhibit close properties. However, activity cliffs challenge this principle, and their presence leads to a sharp decline in the performance of existing ML algorithms, particularly graph-based methods. To overcome this obstacle under a low-data scenario, we propose a novel semi-supervised learning (SSL) method dubbed SemiMol, which employs predictions on numerous unannotated data as pseudo-signals for subsequent training. Specifically, we introduce an additional instructor model to evaluate the accuracy and trustworthiness of proxy labels because existing pseudo-labeling approaches require probabilistic outputs to reveal the model's confidence and fail to be applied in regression tasks. Moreover, we design a self-adaptive curriculum learning algorithm to progressively move the target model toward hard samples at a controllable pace. Extensive experiments on 30 activity cliff datasets demonstrate that SemiMol significantly enhances graph-based ML architectures and outpasses state-of-the-art pretraining and SSL baselines.
- Abstract(参考訳): 機械学習(ML)は、薬の発見と材料設計に関心のある正確で高速な分子特性予測を可能にする。
彼らの成功は、類似した分子が密接な性質を示すと仮定して、心臓における類似性の原理に基づいている。
しかし、アクティビティの崖はこの原則に挑戦し、その存在は既存のMLアルゴリズム、特にグラフベースの手法の性能を著しく低下させます。
この障害を低データシナリオ下で克服するために,SemiMolと呼ばれる新しい半教師付き学習手法を提案する。
具体的には、既存の擬似ラベル付け手法ではモデルの信頼性を明らかにするために確率的出力が必要であり、回帰タスクには適用できないため、プロキシラベルの精度と信頼性を評価するための追加インストラクターモデルを導入する。
さらに,自己適応型カリキュラム学習アルゴリズムを設計し,目標モデルを制御可能なペースでハードサンプルへ段階的に移動させる。
30のアクティビティ崖データセットに関する大規模な実験によると、SemiMolはグラフベースのMLアーキテクチャを大幅に強化し、最先端の事前トレーニングとSSLベースラインを超越している。
関連論文リスト
- LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics [10.638045151201084]
本稿では,近年のステートフル・アンラーニング法12の原則的分類について述べる。
未学習効果(UE)、実用性維持(UT)、堅牢性(Rob)の評価を再考する。
分析の結果,Multiple-choice question (MCQ) の精度に支配される現在の評価は,狭い視点しか示さないことがわかった。
論文 参考訳(メタデータ) (2025-10-08T23:47:05Z) - Revisiting semi-supervised learning in the era of foundation models [35.44676829010657]
半教師付き学習(SSL)は、ラベル付きデータとともに豊富なラベル付きデータを活用して学習を強化する。
我々は,凍結視覚基盤モデル(VFM)が性能的に劣るSSLベンチマークデータセットを開発し,代表的なSSLメソッドを体系的に評価する。
ラベル付きデータのみを用いたパラメータ効率細調整(PEFT)は、ラベルなしデータを活用することなく、SSLのパフォーマンスとよく一致します。
ノイズの多い擬似ラベルの悪名高い問題を克服するため,より堅牢な擬似ラベルを生成するために,複数のPEFTアプローチとVFMバックボーンのアンサンブルを提案する。
論文 参考訳(メタデータ) (2025-03-12T18:01:10Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Quantifying the Prediction Uncertainty of Machine Learning Models for Individual Data [2.1248439796866228]
本研究では,線形回帰とニューラルネットワークに対するpNMLの学習可能性について検討する。
pNMLは様々なタスクにおけるこれらのモデルの性能と堅牢性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-12-10T13:58:19Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。