論文の概要: Tabular foundation models for in-context prediction of molecular properties
- arxiv url: http://arxiv.org/abs/2604.16123v2
- Date: Mon, 20 Apr 2026 09:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.20448
- Title: Tabular foundation models for in-context prediction of molecular properties
- Title(参考訳): 分子特性の文脈内予測のためのタブラル基礎モデル
- Authors: Karim K. Ben Hicham, Jan G. Rittig, Martin Grohe, Alexander Mitsos,
- Abstract要約: タブラル基礎モデル(TFM)は、コンテキスト内学習を通じて予測を行い、タスク固有のトレーニングなしで推論を可能にする。
我々は、標準化された医薬品のベンチマークと化学工学のデータセットの両方で、低・中・データ体制におけるTFMを評価した。
ベンチマーク全体を通して、この手法は微調整に比べて計算コストを抑えながら優れた予測性能を示す。
- 参考スコア(独自算出の注目度): 44.41091354279448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate molecular property prediction is central to drug discovery, catalysis, and process design, yet real-world applications are often limited by small datasets. Molecular foundation models provide a promising direction by learning transferable molecular representations; however, they typically involve task-specific fine-tuning, require machine learning expertise, and often fail to outperform classical baselines. Tabular foundation models (TFMs) offer a fundamentally different paradigm: they perform predictions through in-context learning, enabling inference without task-specific training. Here, we evaluate TFMs in the low- to medium-data regime across both standardized pharmaceutical benchmarks and chemical engineering datasets. We evaluate both frozen molecular foundation model representations, as well as classical descriptors and fingerprints. Across the benchmarks, the approach shows excellent predictive performance while reducing computational cost, compared to fine-tuning, with these advantages also transferring to practical engineering data settings. In particular, combining TFMs with CheMeleon embeddings yields up to 100\% win rates on 30 MoleculeACE tasks, while compact RDKit2d and Mordred descriptors provide strong descriptor-based alternatives. Molecular representation emerges as a key determinant in TFM performance, with molecular foundation model embeddings and 2D descriptor sets both providing substantial gains over classic molecular fingerprints on many tasks. These results suggest that in-context learning with TFMs provides a highly accurate and cost-efficient alternative for property prediction in practical applications.
- Abstract(参考訳): 正確な分子特性予測は、薬物発見、触媒反応、プロセス設計の中心であるが、実際の応用は小さなデータセットによって制限されることが多い。
分子基盤モデルは、伝達可能な分子表現を学習することで有望な方向を提供するが、それらは通常、タスク固有の微調整を伴い、機械学習の専門知識を必要とし、しばしば古典的なベースラインを上回りにしない。
タブラル基礎モデル(TFM)は、基本的に異なるパラダイムを提供し、コンテキスト内学習を通じて予測を行い、タスク固有のトレーニングなしで推論を可能にする。
ここでは、標準化された医薬品のベンチマークと化学工学のデータセットの両方で、低・中程度の状態におけるTFMを評価する。
凍結分子基盤モデル表現と古典的記述子と指紋の両方を評価する。
ベンチマーク全体を通して、この手法は計算コストを削減しつつ、微調整よりも優れた予測性能を示し、これらの利点は実践的なエンジニアリングデータ設定にもたらされる。
特に、TFMとCheMeleonの埋め込みを組み合わせると、30 MoleculeACEタスクで最大100\%の勝利率が得られる一方、コンパクトなRDKit2dとMordredディスクリプタは強力な記述子ベースの代替手段を提供する。
分子表現は、TFM性能の重要な決定要因として現れ、分子基盤モデル埋め込みと2Dディスクリプタセットは、多くのタスクにおいて古典的な分子指紋よりも大幅に向上する。
これらの結果から, TFMを用いたインコンテキスト学習は, 実用アプリケーションにおける特性予測の精度が高く, コスト効率のよい代替手段となることが示唆された。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Descriptor-based Foundation Models for Molecular Property Prediction [0.3277163122167433]
本研究は、決定論的分子記述子を事前学習した新しい分子基盤モデルであるCheMeleonを紹介する。
チェメレオンは、豊かな分子表現を学ぶために低ノイズ分子記述子を用いる。
PolarisとMoeculeACEの58のベンチマークデータセットに基づいて評価され、CheMeleonはPolarisタスクで79%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-06-18T18:21:50Z) - Graph-based Molecular In-context Learning Grounded on Morgan Fingerprints [28.262593876388397]
In-context Learning (ICL) では、プロパティ予測や分子キャプションなどの分子タスクのための大規模言語モデル(LLM)を、慎重に選択された実演例を入力プロンプトに埋め込む。
しかし、現在の分子タスクのプロンプト検索法は、モーガン指紋のような分子の特徴的類似性に依存しており、これはグローバル分子と原子結合の関係を適切に捉えていない。
本稿では,グローバル分子構造をグラフニューラルネットワーク(GNN)とテキストキャプション(記述)に整合させ,モーガン指紋による局所的特徴類似性を活用する自己教師付き学習手法GAMICを提案する。
論文 参考訳(メタデータ) (2025-02-08T02:46:33Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Tokenization for Molecular Foundation Models [0.0]
ケミカル特異的な19種を含む34種のトークン化剤を系統的に評価し,SMILES分子の表現に有意な差が認められた。
我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。