Fugu-MT 論文翻訳(概要): Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity Prediction

論文の概要: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity Prediction

arxiv url: http://arxiv.org/abs/2306.04886v2
Date: Wed, 20 Dec 2023 11:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 21:56:54.455835
Title: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity Prediction
Title（参考訳）: タンパク質-リガンド結合親和性予測のためのマルチタスクバイオアッセイ事前トレーニング
Authors: Jiaxian Yan, Zhaofeng Ye, Ziyi Yang, Chengqiang Lu, Shengyu Zhang, Qi Liu, Jiezhong Qiu
Abstract要約: 構造に基づくPLBA予測のための事前学習フレームワークであるMBP(Multi-task Bioassay Pre-training)を提案する。 MBPは、様々なノイズのあるラベルを持つ新しいChEMBL-Dockデータセットから、堅牢で伝達可能な構造知識を学習する。
参考スコア（独自算出の注目度）: 26.530876904939163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Protein-ligand binding affinity (PLBA) prediction is the fundamental task in drug discovery. Recently, various deep learning-based models predict binding affinity by incorporating the three-dimensional structure of protein-ligand complexes as input and achieving astounding progress. However, due to the scarcity of high-quality training data, the generalization ability of current models is still limited. In addition, different bioassays use varying affinity measurement labels (i.e., IC50, Ki, Kd), and different experimental conditions inevitably introduce systematic noise, which poses a significant challenge to constructing high-precision affinity prediction models. To address these issues, we (1) propose Multi-task Bioassay Pre-training (MBP), a pre-training framework for structure-based PLBA prediction; (2) construct a pre-training dataset called ChEMBL-Dock with more than 300k experimentally measured affinity labels and about 2.8M docked three-dimensional structures. By introducing multi-task pre-training to treat the prediction of different affinity labels as different tasks and classifying relative rankings between samples from the same bioassay, MBP learns robust and transferrable structural knowledge from our new ChEMBL-Dock dataset with varied and noisy labels. Experiments substantiate the capability of MBP as a general framework that can improve and be tailored to mainstream structure-based PLBA prediction tasks. To the best of our knowledge, MBP is the first affinity pre-training model and shows great potential for future development.
Abstract（参考訳）: タンパク質リガンド結合親和性(PLBA)予測は薬物発見の基本的な課題である。近年,タンパク質-リガンド複合体の3次元構造を入力として組み込んで結合親和性を予測し,驚くべき進歩を達成している。しかし、高品質なトレーニングデータの不足により、現在のモデルの一般化能力はまだ限られている。さらに、異なるバイオアッセイは様々なアフィニティ測定ラベル(IC50、Ki、Kd)を使用し、様々な実験条件が必然的にシステマティックノイズを導入し、高精度なアフィニティ予測モデルを構築する上で大きな課題となる。これらの問題に対処するために,(1)構造ベースplba予測のための事前学習フレームワークであるマルチタスクバイオアッセイプレトレーニング(mbp)を提案し,(2)300k以上の実験的アフィニティラベルと約2.8mのドッキングドッキング構造を持つchembl-dockと呼ばれる事前学習データセットを構築した。異なる親和性ラベルの予測を異なるタスクとして扱うためにマルチタスク事前学習を導入し、同じバイオアッセイからサンプル間の相対ランキングを分類することで、mbpは、変動ラベルとノイズラベルを持つ新しいchembl-dockデータセットから堅牢で転送可能な構造知識を学習する。実験は、主流構造に基づくPLBA予測タスクの改善と調整が可能な一般的なフレームワークとしてのMBPの能力を裏付けるものである。我々の知る限り、MBPは最初の親和性事前学習モデルであり、将来の発展に大きな可能性を示している。

関連論文リスト

Investigating Data Pruning for Pretraining Biological Foundation Models at Scale [47.09153330837959]
本稿では,生物ドメインに適したポストホックインフルエンス誘導型データ解析フレームワークを提案する。我々のフレームワークは、極端な刈り取り率99%のランダム選択ベースラインを一貫して上回っている。これらの結果は、BioFMプリトレーニングの計算コストを大幅に削減するために、インフルエンス誘導型データプルーニングの可能性を示している。
論文参考訳（メタデータ） (2025-12-15T02:42:52Z)
Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文参考訳（メタデータ） (2025-09-16T17:24:35Z)
AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。 AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文参考訳（メタデータ） (2025-07-11T17:02:25Z)
DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。 DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文参考訳（メタデータ） (2025-06-18T23:58:22Z)
A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery [32.573496601865465]
構造に基づく薬物発見(Structure-based drug discovery、SBDD)は、標的タンパク質の詳細な物理的構造を利用して新しい薬物を開発する体系的な科学的プロセスである。生体分子の事前学習モデルの最近の進歩は、様々な生化学的応用において顕著な成功を収めている。
論文参考訳（メタデータ） (2025-03-06T12:04:56Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Binding Affinity Prediction: From Conventional to Machine Learning-Based Approaches [48.66541987908136]
過去数十年間、バインディング親和性を予測するために多くの作業が費やされてきた。従来の機械学習モデルとディープラーニングモデルの両方を結合親和性を予測するために利用している点に注意が必要だ。予測性能の改善とFDAの動物試験の廃止により、AI仮想細胞(AIVC)のようなサイリコモデルで駆動されるAIは、結合親和性予測を前進させる可能性がある。
論文参考訳（メタデータ） (2024-09-30T03:40:49Z)
Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions [4.36852565205713]
OmniBioTEは,250億以上のタンパク質と核酸を混合したトークンをトレーニングした,オープンソースのマルチオミックモデルである。我々は,OmbiBioTEが与えられた核酸とタンパク質の結合相互作用のギブス自由エネルギーの変化を予測できることを示す。
論文参考訳（メタデータ） (2024-08-29T03:56:40Z)
Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。 MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。 New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文参考訳（メタデータ） (2024-08-11T08:28:43Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文参考訳（メタデータ） (2024-05-16T03:53:21Z)
Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。 eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文参考訳（メタデータ） (2024-05-03T10:33:19Z)
Equivariant Pretrained Transformer for Unified Geometric Learning on Multi-Domain 3D Molecules [23.189608074493997]
Equivariant Pretrained Transformer (EPT)は、小さな分子やタンパク質の幾何学的学習を調和させるために設計された新しい事前学習フレームワークである。 EPTは、各原子のより広い文脈に到達できるブロック強化表現を通じて、多ドメイン分子の幾何学的モデリングを統一する。 EPTのもう1つの重要な革新はブロックレベルの事前訓練であり、小さな分子とタンパク質からなるデータセットで共同で事前訓練することができる。
論文参考訳（メタデータ） (2024-02-20T04:40:00Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。 MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-12-11T10:59:23Z)
Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models [42.16524616409125]
本研究では,大規模ドッキングコンフォーメーションの事前学習により,優れた性能を有するタンパク質リガンド構造予測モデルが得られることを示す。提案モデルであるHelixDockは,物理ベースのドッキングツールによってカプセル化された物理知識を,事前学習期間中に取得することを目的としている。
論文参考訳（メタデータ） (2023-10-21T05:54:26Z)
Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文参考訳（メタデータ） (2023-06-20T14:21:58Z)
On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文参考訳（メタデータ） (2023-05-20T16:23:50Z)
Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。 GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文参考訳（メタデータ） (2022-07-20T07:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。