論文の概要: Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2304.12239v1
- Date: Mon, 24 Apr 2023 16:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:06:00.297208
- Title: Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction
- Title(参考訳): Uni-QSAR: 分子特性予測のための自動MLツール
- Authors: Zhifeng Gao, Xiaohong Ji, Guojiang Zhao, Hongshuai Wang, Hang Zheng,
Guolin Ke, Linfeng Zhang
- Abstract要約: 分子特性予測タスクのための強力なオートMLツールUni-QSARを提案する。
Uni-QSARは、1Dシーケンシャルトークンの分子表現学習(MRL)、2Dトポロジーグラフと3Dコンバータを事前学習モデルと組み合わせて、大規模未ラベルデータからのリッチ表現を活用する。
- 参考スコア(独自算出の注目度): 15.312021665242154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently deep learning based quantitative structure-activity relationship
(QSAR) models has shown surpassing performance than traditional methods for
property prediction tasks in drug discovery. However, most DL based QSAR models
are restricted to limited labeled data to achieve better performance, and also
are sensitive to model scale and hyper-parameters. In this paper, we propose
Uni-QSAR, a powerful Auto-ML tool for molecule property prediction tasks.
Uni-QSAR combines molecular representation learning (MRL) of 1D sequential
tokens, 2D topology graphs, and 3D conformers with pretraining models to
leverage rich representation from large-scale unlabeled data. Without any
manual fine-tuning or model selection, Uni-QSAR outperforms SOTA in 21/22 tasks
of the Therapeutic Data Commons (TDC) benchmark under designed parallel
workflow, with an average performance improvement of 6.09\%. Furthermore, we
demonstrate the practical usefulness of Uni-QSAR in drug discovery domains.
- Abstract(参考訳): 近年, 深層学習に基づく量的構造活性関係(qsar)モデルが, 従来の薬物発見における特性予測タスクよりも高い性能を示している。
しかし、ほとんどのDLベースのQSARモデルは、より良い性能を得るためにラベル付きデータに制限されており、モデルスケールやハイパーパラメータにも敏感である。
本稿では,分子特性予測タスクのための強力なオートMLツールUni-QSARを提案する。
Uni-QSARは、1Dシーケンシャルトークンの分子表現学習(MRL)、2Dトポロジーグラフと3Dコンバータを事前学習モデルと組み合わせて、大規模未ラベルデータからのリッチ表現を活用する。
手作業による微調整やモデル選択がなければ、Uni-QSARは、設計された並列ワークフロー下でのTDC(Therapeutic Data Commons)ベンチマークの21/22タスクでSOTAよりパフォーマンスが良く、平均パフォーマンスは6.09\%向上する。
さらに, 医薬品発見領域におけるUni-QSARの有用性を実証した。
関連論文リスト
- On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - Machine Learning Models for Accurately Predicting Properties of CsPbCl3 Perovskite Quantum Dots [0.0]
Perovskite Quantum Dots (PQDs) は、そのユニークな性質のため、いくつかのアプリケーションに将来性がある。
本研究では,mathrmCsPbCl_3$PQDsのサイズ,吸収率(1S abs),発光特性(PL)の予測における機械学習(ML)の有効性について検討した。
論文 参考訳(メタデータ) (2024-06-20T19:08:54Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Development and Evaluation of Conformal Prediction Methods for QSAR [0.5161531917413706]
定量的構造活性相関モデル(QSAR)は、化合物の生物活性を予測するために一般的に用いられる手法である。
優れた予測性能を達成する機械学習(ML)アルゴリズムの多くは、予測の不確実性を推定するためのいくつかのアドオンメソッドを必要とする。
コンフォーマル予測(CP)は予測アルゴリズムに非依存であり、データ分布の弱い仮定の下で有効な予測間隔を生成できる。
論文 参考訳(メタデータ) (2023-04-03T13:41:09Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Improving AMR Parsing with Sequence-to-Sequence Pre-training [39.33133978535497]
本稿では,Sequence-to-Sequence (seq2seq) AMR解析に焦点を当てる。
単体および関節の両方で事前学習モデルを構築するために,Seq2seq事前学習手法を提案する。
実験の結果,シングルモデルとジョイントモデルの両方で性能が有意に向上した。
論文 参考訳(メタデータ) (2020-10-05T04:32:47Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。