論文の概要: SIU: A Million-Scale Structural Small Molecule-Protein Interaction Dataset for Unbiased Bioactivity Prediction
- arxiv url: http://arxiv.org/abs/2406.08961v1
- Date: Thu, 13 Jun 2024 09:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:34:37.185041
- Title: SIU: A Million-Scale Structural Small Molecule-Protein Interaction Dataset for Unbiased Bioactivity Prediction
- Title(参考訳): SIU: バイオアクティビティ予測のための大規模構造分子-タンパク質相互作用データセット
- Authors: Yanwen Huang, Bowen Gao, Yinjun Jia, Hongbo Ma, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan,
- Abstract要約: 生理活性」は、小分子の治療または毒性の薬理学的結果を決定する。
小さな分子-タンパク質相互作用の既存の構造データセットは、しばしば大規模に制限され、体系的に組織化された生物活性ラベルが欠如している。
本研究では,100万以上の結合構造からなり,それぞれに実際の生物活性ラベルを付加した,小さな分子-タンパク質相互作用の包括的データセットを提案する。
- 参考スコア(独自算出の注目度): 17.973095406654316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small molecules play a pivotal role in modern medicine, and scrutinizing their interactions with protein targets is essential for the discovery and development of novel, life-saving therapeutics. The term "bioactivity" encompasses various biological effects resulting from these interactions, including both binding and functional responses. The magnitude of bioactivity dictates the therapeutic or toxic pharmacological outcomes of small molecules, rendering accurate bioactivity prediction crucial for the development of safe and effective drugs. However, existing structural datasets of small molecule-protein interactions are often limited in scale and lack systematically organized bioactivity labels, thereby impeding our understanding of these interactions and precise bioactivity prediction. In this study, we introduce a comprehensive dataset of small molecule-protein interactions, consisting of over a million binding structures, each annotated with real biological activity labels. This dataset is designed to facilitate unbiased bioactivity prediction. We evaluated several classical models on this dataset, and the results demonstrate that the task of unbiased bioactivity prediction is challenging yet essential.
- Abstract(参考訳): 小分子は現代医学において重要な役割を担い、タンパク質標的との相互作用を精査することは、新規な生命維持療法の発見と発展に不可欠である。
生体活性」という用語は、結合反応と機能反応の両方を含む、これらの相互作用から生じる様々な生物学的効果を含んでいる。
生物活性の大きさは、小さな分子の治療または毒性の薬理学的結果を決定し、安全で効果的な薬物の開発に不可欠な正確な生物活性予測を導出する。
しかしながら、小さな分子-タンパク質相互作用の既存の構造データセットは、しばしば大規模に制限され、体系的に組織化された生物活性ラベルが欠如しているため、これらの相互作用の理解と正確な生物活性予測が妨げられる。
本研究では,100万以上の結合構造からなり,それぞれに実際の生物活性ラベルを付加した小さな分子-タンパク質相互作用の包括的データセットを提案する。
このデータセットは、バイアスのない生物活性予測を促進するように設計されている。
このデータセット上でいくつかの古典的モデルを評価した結果, 生物活性予測の非バイアス化の課題は不可欠であることがわかった。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - Learning to Denoise Biomedical Knowledge Graph for Robust Molecular Interaction Prediction [50.7901190642594]
分子間相互作用予測のためのバイオKDN (Biomedical Knowledge Graph Denoising Network) を提案する。
BioKDNは、ノイズの多いリンクを学習可能な方法で識別することで、局所的な部分グラフの信頼性の高い構造を洗練する。
ターゲットの相互作用に関する関係を円滑にすることで、一貫性とロバストなセマンティクスを維持する。
論文 参考訳(メタデータ) (2023-12-09T07:08:00Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Improved K-mer Based Prediction of Protein-Protein Interactions With
Chaos Game Representation, Deep Learning and Reduced Representation Bias [0.0]
本稿では,対話データセットからユニークなペアを抽出し,非バイアス付き機械学習のための非冗長なペアデータを生成する手法を提案する。
我々は,タンパク質のコード遺伝子のカオスゲーム表現から相互作用を学習し,予測できる畳み込みニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2023-10-23T10:02:23Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Embracing assay heterogeneity with neural processes for markedly
improved bioactivity predictions [0.276240219662896]
リガンドの生物活性を予測することは、コンピュータ支援薬物発見において最も困難かつ最も重要な課題の1つである。
長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一である。
異種アッセイ間の情報シナジーを利用した階層型メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:26:58Z) - Comparative Performance Evaluation of Large Language Models for
Extracting Molecular Interactions and Pathway Knowledge [6.244840529371179]
タンパク質の相互作用と経路の知識を理解することは、生きたシステムの複雑さを解き明かすのに不可欠です。
既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供しているが、そのメンテナンスは労働集約的である。
本稿では,これらの問題に対処する大規模言語モデルの能力を活用し,関連する科学文献からそのような知識を自動的に抽出することを提案する。
論文 参考訳(メタデータ) (2023-07-17T20:01:11Z) - BactInt: A domain driven transfer learning approach and a corpus for
extracting inter-bacterial interactions from biomedical text [0.03818040429210839]
バイオメディカル文献から微生物の相互作用を自動的に抽出する手法を提案する。
また、特定の細菌群間の関係をマイニングできるパイプラインについても述べる。
細菌間相互作用抽出法の開発に使用できる最初の公開データセットについて紹介する。
論文 参考訳(メタデータ) (2023-04-27T06:14:25Z) - Machine learning modeling of family wide enzyme-substrate specificity
screens [2.276367922551686]
バイオ触媒は、医薬品、複雑な天然物、商品化学物質を大規模に合成するための有望なアプローチである。
生体触媒の導入は、非天然基質上での化学的変換を触媒する酵素の選択能力によって制限される。
論文 参考訳(メタデータ) (2021-09-08T19:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。