論文の概要: BioNeMo Framework: a modular, high-performance library for AI model development in drug discovery
- arxiv url: http://arxiv.org/abs/2411.10548v1
- Date: Fri, 15 Nov 2024 19:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:37.257851
- Title: BioNeMo Framework: a modular, high-performance library for AI model development in drug discovery
- Title(参考訳): BioNeMo Framework: 薬物発見のためのAIモデル開発のためのモジュール化された高性能ライブラリ
- Authors: Peter St. John, Dejun Lin, Polina Binder, Malcolm Greaves, Vega Shah, John St. John, Adrian Lange, Patrick Hsu, Rajesh Illango, Arvind Ramanathan, Anima Anandkumar, David H Brookes, Akosua Busia, Abhishaike Mahajan, Stephen Malina, Neha Prasad, Sam Sinai, Lindsay Edwards, Thomas Gaudelet, Cristian Regep, Martin Steinegger, Burkhard Rost, Alexander Brace, Kyle Hippe, Luca Naef, Keisuke Kamata, George Armstrong, Kevin Boyd, Zhonglin Cao, Han-Yi Chou, Simon Chu, Allan dos Santos Costa, Sajad Darabi, Eric Dawson, Kieran Didi, Cong Fu, Mario Geiger, Michelle Gill, Darren Hsu, Gagan Kaushik, Maria Korshunova, Steven Kothen-Hill, Youhan Lee, Meng Liu, Micha Livne, Zachary McClure, Jonathan Mitchell, Alireza Moradzadeh, Ohad Mosafi, Youssef Nashed, Saee Paliwal, Yuxing Peng, Sara Rabhi, Farhad Ramezanghorbani, Danny Reidenbach, Camir Ricketts, Brian Roland, Kushal Shah, Tyler Shimko, Hassan Sirelkhatim, Savitha Srinivasan, Abraham C Stern, Dorota Toczydlowska, Srimukh Prasad Veccham, Niccolò Alberto Elia Venanzi, Anton Vorontsov, Jared Wilber, Isabel Wilkinson, Wei Jing Wong, Eva Xue, Cory Ye, Xin Yu, Yang Zhang, Guoqing Zhou, Becca Zandstein, Christian Dallago, Bruno Trentini, Emine Kucukbenli, Saee Paliwal, Timur Rvachov, Eddie Calleja, Johnny Israeli, Harry Clifford, Risto Haukioja, Nicholas Haemel, Kyle Tretina, Neha Tadimeti, Anthony B Costa,
- Abstract要約: 計算生物学と化学AIモデルのトレーニングを容易にするために,BioNeMo Frameworkを紹介した。
256のNVIDIA A100では、BioNeMo Frameworkは40億のパラメータBERTベースのPLMを4.2日で1兆個以上のトークンでトレーニングしている。
BioNeMo Frameworkはオープンソースで、誰でも自由に使える。
- 参考スコア(独自算出の注目度): 66.97700597098215
- License:
- Abstract: Artificial Intelligence models encoding biology and chemistry are opening new routes to high-throughput and high-quality in-silico drug development. However, their training increasingly relies on computational scale, with recent protein language models (pLM) training on hundreds of graphical processing units (GPUs). We introduce the BioNeMo Framework to facilitate the training of computational biology and chemistry AI models across hundreds of GPUs. Its modular design allows the integration of individual components, such as data loaders, into existing workflows and is open to community contributions. We detail technical features of the BioNeMo Framework through use cases such as pLM pre-training and fine-tuning. On 256 NVIDIA A100s, BioNeMo Framework trains a three billion parameter BERT-based pLM on over one trillion tokens in 4.2 days. The BioNeMo Framework is open-source and free for everyone to use.
- Abstract(参考訳): 生物学と化学をコードする人工知能モデルは、ハイスループットで高品質なインサイリコドラッグ開発への新たな道を開いた。
しかし、最近のタンパク質言語モデル (pLM) は数百のグラフィカル処理ユニット (GPU) で訓練されている。
我々はBioNeMo Frameworkを導入し、数百のGPUにわたる計算生物学と化学AIモデルのトレーニングを容易にする。
モジュラー設計により、データローダなどの個々のコンポーネントを既存のワークフローに統合し、コミュニティのコントリビューションに開放することができる。
pLM事前学習や微調整といったユースケースを通じて,BioNeMo Frameworkの技術的特徴を詳述する。
256のNVIDIA A100では、BioNeMo Frameworkは40億のパラメータBERTベースのPLMを4.2日で1兆個以上のトークンでトレーニングしている。
BioNeMo Frameworkはオープンソースで、誰でも自由に使える。
関連論文リスト
- Bio2Token: All-atom tokenization of any biomolecular structure with Mamba [3.039173168183899]
完全タンパク質,RNAおよび小分子構造の原子レベルのトークン化を学習する量子化オートエンコーダを開発した。
我々は、Mamba状態空間モデルアーキテクチャが比較的効率的であることを示し、競争力のある精度に達するのに必要なトレーニングデータ、パラメータ、計算のごく一部を必要とし、約10万の原子を持つシステムにスケール可能であることを示した。
論文 参考訳(メタデータ) (2024-10-24T19:23:09Z) - All-in-one foundational models learning across quantum chemical levels [0.0]
マルチモーダル学習に基づくオールインワン(AIO)ANIモデルアーキテクチャを提案する。
私たちのオールインワンの学習アプローチは、トランスファーラーニングよりも汎用的で使いやすい代替手段を提供します。
AIO-ANIモデルは、半経験的から密度汎関数理論から結合クラスタまで、様々なQCレベルにわたって学習可能であることを示す。
論文 参考訳(メタデータ) (2024-09-18T14:29:14Z) - GP-MoLFormer: A Foundation Model For Molecular Generation [31.569161097828893]
本研究では,大規模ケミカルデータセット上での化学言語トランスフォーマーの訓練パラダイムを,本研究における生成タスクにまで拡張する。
具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。
GP-MoLFormerは、生成分子の数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。
論文 参考訳(メタデータ) (2024-04-04T16:20:06Z) - MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki [46.62437145754009]
MAMMOTHツールキットは,大規模な多言語モジュール型機械翻訳システムを大規模に学習するためのフレームワークである。
A100およびV100 NVIDIA GPUのクラスタ間で効率を実証し、設計哲学と今後の情報計画について議論する。
論文 参考訳(メタデータ) (2024-03-12T11:32:30Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - The Ecological Footprint of Neural Machine Translation Systems [2.132096006921048]
本章では、ニューラルMTシステムの生態的フットプリントに焦点を当てる。
トレーニング中のパワードレインとニューラルMTモデルによる推論から始まり、環境への影響に向かって進む。
全体のCO2排出量はアイルランドとオランダで計算される。
論文 参考訳(メタデータ) (2022-02-04T14:56:41Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。