論文の概要: Compressing Chemistry Reveals Functional Groups
- arxiv url: http://arxiv.org/abs/2511.05728v1
- Date: Fri, 07 Nov 2025 21:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.550247
- Title: Compressing Chemistry Reveals Functional Groups
- Title(参考訳): 圧縮化学が官能基を解明
- Authors: Ruben Sharma, Ross D. King,
- Abstract要約: 本報告では, 従来の化学官能基の有効性に関する大規模評価を, 化学的な説明として初めて導入する。
約300万の生物学的関連分子を圧縮する部分構造を探索する教師なし学習アルゴリズムを導入する。
また,24種類の生物活動予測データセット上でアルゴリズムを実行し,データセット固有の機能群を探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first formal large-scale assessment of the utility of traditional chemical functional groups as used in chemical explanations. Our assessment employs a fundamental principle from computational learning theory: a good explanation of data should also compress the data. We introduce an unsupervised learning algorithm based on the Minimum Message Length (MML) principle that searches for substructures that compress around three million biologically relevant molecules. We demonstrate that the discovered substructures contain most human-curated functional groups as well as novel larger patterns with more specific functions. We also run our algorithm on 24 specific bioactivity prediction datasets to discover dataset-specific functional groups. Fingerprints constructed from dataset-specific functional groups are shown to significantly outperform other fingerprint representations, including the MACCS and Morgan fingerprint, when training ridge regression models on bioactivity regression tasks.
- Abstract(参考訳): 本報告では, 従来の化学官能基の有効性に関する大規模評価を, 化学的な説明として初めて導入する。
我々の評価は、計算学習理論の基本的な原理を用いており、データの適切な説明は、データを圧縮するべきである。
我々は,300万の生物学的関連分子を圧縮する部分構造を探索する最小メッセージ長(MML)原理に基づく教師なし学習アルゴリズムを提案する。
得られたサブストラクチャーには、より特異的な機能を持つ新しい大きなパターンと同様に、ほとんどのヒト培養された機能群が含まれていることを実証する。
また,24種類の生物活動予測データセット上でアルゴリズムを実行し,データセット固有の機能群を探索する。
データセット特異的な官能基から構築された指紋は、生物活性回帰タスクの尾根回帰モデルを訓練する際にMACCSやMorgan指紋を含む他の指紋表現よりも著しく優れていることが示されている。
関連論文リスト
- Investigating Graph Neural Networks and Classical Feature-Extraction Techniques in Activity-Cliff and Molecular Property Prediction [0.6906005491572401]
分子の破滅は、分子データの数値的特徴ベクトルへの変換を指す。
分子グラフから直接識別可能な特徴を学習する新しい手法として、メッセージパッシンググラフニューラルネットワーク(GNN)が登場した。
論文 参考訳(メタデータ) (2024-11-20T20:07:48Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [78.61845513154502]
広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - BERT Learns (and Teaches) Chemistry [5.653789128055942]
そこで本研究では,データ駆動の観点から,機能基および他の特性に影響を及ぼす分子サブ構造の研究に注意を払わせることを提案する。
次に, モデルで学習した官能基と原子の表現を適用し, 毒性, 溶解度, 薬物類似性, アクセシビリティの問題に対処する。
論文 参考訳(メタデータ) (2020-07-11T00:23:07Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。