論文の概要: A Hitchhiker's Guide to Deep Chemical Language Processing for Bioactivity Prediction
- arxiv url: http://arxiv.org/abs/2407.12152v1
- Date: Tue, 16 Jul 2024 20:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 19:18:21.798089
- Title: A Hitchhiker's Guide to Deep Chemical Language Processing for Bioactivity Prediction
- Title(参考訳): 生物活性予測のための深層化学言語処理のためのヒッチハイカーガイド
- Authors: Rıza Özçelik, Francesca Grisoni,
- Abstract要約: 化学言語処理(CLP)は、薬物発見における深層学習の顕著なアプローチとして現れている。
ここでは,CLPトレーニングの重要な要素を分析し,新参者や専門家のガイドラインを提供する。
この「ヒッチハイカーのガイド」は、特定の方法論的選択の重要性を強調しているだけでなく、研究者に実践的な勧告を与えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has significantly accelerated drug discovery, with 'chemical language' processing (CLP) emerging as a prominent approach. CLP learns from molecular string representations (e.g., Simplified Molecular Input Line Entry Systems [SMILES] and Self-Referencing Embedded Strings [SELFIES]) with methods akin to natural language processing. Despite their growing importance, training predictive CLP models is far from trivial, as it involves many 'bells and whistles'. Here, we analyze the key elements of CLP training, to provide guidelines for newcomers and experts alike. Our study spans three neural network architectures, two string representations, three embedding strategies, across ten bioactivity datasets, for both classification and regression purposes. This 'hitchhiker's guide' not only underscores the importance of certain methodological choices, but it also equips researchers with practical recommendations on ideal choices, e.g., in terms of neural network architectures, molecular representations, and hyperparameter optimization.
- Abstract(参考訳): 深層学習は薬物発見を著しく加速させ、顕著なアプローチとして「化学言語」処理(CLP)が出現した。
CLPは、分子文字列表現(例えば、Simplified Molecular Input Line Entry Systems(SMILES)とSelf-Reference Embedded Strings(SELFIES))から、自然言語処理に似たメソッドで学習する。
その重要性は増しているが、予測型CLPモデルは、多くの「鐘と笛」を含むため、決して自明ではない。
ここでは,CLPトレーニングの重要な要素を分析し,新参者や専門家のガイドラインを提供する。
我々の研究は、分類と回帰の両方のために、3つのニューラルネットワークアーキテクチャ、2つの文字列表現、3つの埋め込み戦略、10の生物活性データセットにまたがる。
この「ヒッチハイカーのガイド」は、特定の方法論的選択の重要性を浮き彫りにするだけでなく、ニューラルネットワークアーキテクチャ、分子表現、ハイパーパラメータ最適化といった、理想的な選択に関する実践的な勧告を研究者に与えている。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Predicting ATP binding sites in protein sequences using Deep Learning
and Natural Language Processing [0.0]
本稿ではATP-Protein結合部位の分類法を提案する。
主にPSSMといくつかの単語埋め込みを特徴として用いた各種実験を行った。
実験の結果は,最先端のベンチマークよりも改善が見られた。
論文 参考訳(メタデータ) (2024-02-02T18:42:39Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - Meta Learning for Natural Language Processing: A Survey [88.58260839196019]
ディープラーニングは自然言語処理(NLP)分野において主要な技術である。
ディープラーニングには多くのラベル付きデータが必要です。
メタ学習は、より良いアルゴリズムを学ぶためのアプローチを研究する機械学習の分野である。
論文 参考訳(メタデータ) (2022-05-03T13:58:38Z) - Ensemble Spectral Prediction (ESP) Model for Metabolite Annotation [10.640447979978436]
メタボロミクスの鍵となる課題は、化学的なアイデンティティを持つ生物学的サンプルから測定されたスペクトルを注釈付けすることである。
メタボライトアノテーションのための新しい機械学習モデルEnsemble Spectral Prediction (ESP)を提案する。
論文 参考訳(メタデータ) (2022-03-25T17:05:41Z) - HealthPrompt: A Zero-shot Learning Paradigm for Clinical Natural
Language Processing [3.762895631262445]
われわれはHealthPromptという新しいプロンプトベースのNLPフレームワークを開発した。
本研究は,6種類のPLMを用いたHealthPromptの詳細な分析を行った。
本実験は,臨床テキストのコンテキストを効果的に把握し,トレーニングデータなしで極めて良好に動作できることを証明した。
論文 参考訳(メタデータ) (2022-03-09T21:44:28Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z) - Guiding Deep Molecular Optimization with Genetic Exploration [79.50698140997726]
本稿では,深層ニューラルネットワーク(DNN)を訓練し,高次分子を生成する,遺伝的専門家誘導学習(GEGL)を提案する。
大規模な実験により、GEGLは最先端の手法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-07-04T05:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。