論文の概要: Bio2Token: All-atom tokenization of any biomolecular structure with Mamba
- arxiv url: http://arxiv.org/abs/2410.19110v1
- Date: Thu, 24 Oct 2024 19:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:37.662886
- Title: Bio2Token: All-atom tokenization of any biomolecular structure with Mamba
- Title(参考訳): Bio2Token:Mambaを用いた生体分子構造の全原子トークン化
- Authors: Andrew Liu, Axel Elaldi, Nathan Russell, Olivia Viessmann,
- Abstract要約: 完全タンパク質,RNAおよび小分子構造の原子レベルのトークン化を学習する量子化オートエンコーダを開発した。
我々は、Mamba状態空間モデルアーキテクチャが比較的効率的であることを示し、競争力のある精度に達するのに必要なトレーニングデータ、パラメータ、計算のごく一部を必要とし、約10万の原子を持つシステムにスケール可能であることを示した。
- 参考スコア(独自算出の注目度): 3.039173168183899
- License:
- Abstract: Efficient encoding and representation of large 3D molecular structures with high fidelity is critical for biomolecular design applications. Despite this, many representation learning approaches restrict themselves to modeling smaller systems or use coarse-grained approximations of the systems, for example modeling proteins at the resolution of amino acid residues rather than at the level of individual atoms. To address this, we develop quantized auto-encoders that learn atom-level tokenizations of complete proteins, RNA and small molecule structures with reconstruction accuracies below and around 1 Angstrom. We demonstrate that the Mamba state space model architecture employed is comparatively efficient, requiring a fraction of the training data, parameters and compute needed to reach competitive accuracies and can scale to systems with almost 100,000 atoms. The learned structure tokens of bio2token may serve as the input for all-atom language models in the future.
- Abstract(参考訳): 高忠実度3次元分子構造の効率的な符号化と表現は生体分子設計への応用において重要である。
これにもかかわらず、多くの表現学習アプローチは、より小さなシステムや、個々の原子のレベルでではなくアミノ酸残基の分解でタンパク質をモデル化するなど、システムの粗粒度近似を使用することに制限されている。
そこで本研究では, 全タンパク質, RNA, 小分子構造の原子レベルのトークン化を, アングストロームの地下と周辺に再構築した量子化オートエンコーダを開発した。
我々は、Mamba状態空間モデルアーキテクチャが比較的効率的であることを示し、競争力のある精度に達するのに必要なトレーニングデータ、パラメータ、計算のごく一部を必要とし、約10万の原子を持つシステムにスケール可能であることを示した。
バイオ2トケンの学習された構造トークンは、将来全ての原子言語モデルの入力として機能する可能性がある。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - CryoChains: Heterogeneous Reconstruction of Molecular Assembly of
Semi-flexible Chains from Cryo-EM Images [3.0828074702828623]
分子鎖の剛体変換により生体分子の大きな変形をコードするCryoChainsを提案する。
ヒトGABAtextsubscriptBおよび熱ショックタンパク質のデータ実験により、CryoChainsは生体分子の不均一な構造を生化学的に定量化できることが示された。
論文 参考訳(メタデータ) (2023-06-12T17:57:12Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Transferring Chemical and Energetic Knowledge Between Molecular Systems
with Machine Learning [5.27145343046974]
本稿では,単純な分子システムから得られた知識をより複雑なものに伝達するための新しい手法を提案する。
我々は、高低自由エネルギー状態の分類に焦点をあてる。
以上の結果より, トリアラニンからデカアラニン系への移行学習において, 0.92 の顕著な AUC が得られた。
論文 参考訳(メタデータ) (2022-05-06T16:21:00Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - A silicon qubit platform for in situ single molecule structure
determination [0.7187911114620571]
単分子レベルでの一般、不均一、過渡的または内在的に混乱したタンパク質系の個々のコンフォメーションのインスタンスをイメージングすることは、構造生物学における顕著な課題の1つである。
ここでは、シリコンベースのスピン量子ビットの利点を取り入れた単一の分子イメージングプラットフォームを設計することで、この問題に取り組む。
我々は,本プラットフォームが自然環境における個々の分子系のスケーラブルな原子レベル構造決定を可能にすることを,詳細なシミュレーションを通じて実証した。
論文 参考訳(メタデータ) (2021-12-07T10:42:09Z) - Message Passing Networks for Molecules with Tetrahedral Chirality [8.391459650489123]
四面体キラリティを持つ分子の性質を学習するために、メッセージパッシングニューラルネットワークのための2つのカスタムアグリゲーション関数を開発した。
その結果、ベースラインの総和アグリゲータよりも微妙な改善が見られ、さらなるアーキテクチャ開発の機会が浮かび上がっている。
論文 参考訳(メタデータ) (2020-11-24T03:03:09Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - Hierarchical, rotation-equivariant neural networks to select structural
models of protein complexes [6.092214762701847]
タンパク質複合体の正確なモデルを特定するために,全ての原子の3次元位置から直接学習する機械学習手法を提案する。
我々のネットワークは、考えられるモデルの大きな集合のうち、正確な構造モデルの同定を大幅に改善する。
論文 参考訳(メタデータ) (2020-06-05T20:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。