論文の概要: Can Molecular Foundation Models Know What They Don't Know? A Simple Remedy with Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.25509v1
- Date: Mon, 29 Sep 2025 21:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.324785
- Title: Can Molecular Foundation Models Know What They Don't Know? A Simple Remedy with Preference Optimization
- Title(参考訳): 分子基盤モデルは、何を知らないのかを知ることができるか?
- Authors: Langzhou He, Junyou Zhu, Fangxin Wang, Junhua Liu, Haoyan Xu, Yue Zhao, Philip S. Yu, Qitian Wu,
- Abstract要約: 既存の基盤モデルと柔軟に統合可能なプラグイン・アンド・プレイモジュールである,分子適応型参照インスタンスランキング(Mole-PAIR)を導入する。
本手法は既存の分子基盤モデルのOOD検出能力を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 54.22711328577149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular foundation models are rapidly advancing scientific discovery, but their unreliability on out-of-distribution (OOD) samples severely limits their application in high-stakes domains such as drug discovery and protein design. A critical failure mode is chemical hallucination, where models make high-confidence yet entirely incorrect predictions for unknown molecules. To address this challenge, we introduce Molecular Preference-Aligned Instance Ranking (Mole-PAIR), a simple, plug-and-play module that can be flexibly integrated with existing foundation models to improve their reliability on OOD data through cost-effective post-training. Specifically, our method formulates the OOD detection problem as a preference optimization over the estimated OOD affinity between in-distribution (ID) and OOD samples, achieving this goal through a pairwise learning objective. We show that this objective essentially optimizes AUROC, which measures how consistently ID and OOD samples are ranked by the model. Extensive experiments across five real-world molecular datasets demonstrate that our approach significantly improves the OOD detection capabilities of existing molecular foundation models, achieving up to 45.8%, 43.9%, and 24.3% improvements in AUROC under distribution shifts of size, scaffold, and assay, respectively.
- Abstract(参考訳): 分子基盤モデルは、科学的な発見が急速に進んでいるが、オフ・オブ・ディストリビューション(OOD)サンプルに対する信頼性の欠如は、薬物発見やタンパク質設計などの高い領域への適用を著しく制限している。
致命的な失敗モードは化学幻覚であり、モデルでは高い信頼度を保ちながら未知の分子に対する完全に不正確な予測を行う。
この課題に対処するために,既存の基礎モデルと柔軟に統合し,コスト効率のよいポストトレーニングを通じて,OODデータの信頼性を向上させる,シンプルなプラグイン・アンド・プレイモジュールである,分子的選好整合型インスタンスランキング(Mole-PAIR)を紹介した。
具体的には,OOD検出問題を,分布内(ID)とOODサンプル間のOOD親和性の推定値に対する優先的最適化として定式化し,この目的を相互学習の目的を通じて達成する。
この目的は、モデルによってIDとOODがいかにランク付けされているかを測定するAUROCを本質的に最適化することを示します。
5つの実世界の分子データセットにわたる大規模な実験により、我々のアプローチは既存の分子基盤モデルのOOD検出能力を著しく改善し、AUROCの最大45.8%、43.9%、24.3%の改善をそれぞれ、サイズ、足場、アッセイの分散シフト下で達成した。
関連論文リスト
- BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models [12.92528375287641]
BOOM, $boldsymbolb$enchmarks for $boldsymbolo$f-distribution $boldsymbolm$olecular property predictions。
我々は、OOD性能に関するディープラーニングモデルをベンチマークするために、140以上のモデルの組み合わせとプロパティ予測タスクを評価した。
全体として、すべてのタスクにまたがる強力なOOD一般化を実現する既存のモデルは見つからない。
論文 参考訳(メタデータ) (2025-05-03T19:51:23Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization [147.7899503829411]
AliDiffは、事前訓練されたターゲット拡散モデルと望ましい機能特性を整合させる新しいフレームワークである。
最先端の結合エネルギーを持つ分子を最大7.07 Avg. Vina Scoreで生成することができる。
論文 参考訳(メタデータ) (2024-07-01T06:10:29Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。