論文の概要: M5: A Whole Genome Bacterial Encoder at Single Nucleotide Resolution
- arxiv url: http://arxiv.org/abs/2407.03392v1
- Date: Wed, 3 Jul 2024 15:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:20:26.133724
- Title: M5: A Whole Genome Bacterial Encoder at Single Nucleotide Resolution
- Title(参考訳): M5:1個のヌクレオチド分解能を持つ全ゲノム細菌エンコーダ
- Authors: Agust Egilsson,
- Abstract要約: 線形アテンション機構は、エンコーダのみ変換器(M5)のコンテキスト長を、細菌全ゲノム上で事前訓練された数百万の単一ヌクレオチド分解基盤モデルに拡張する。
M5小モデルは、トレーニング中に最大196Kヌクレオチド、テスト中に2Mヌクレオチドを含む40gbのメモリを持つ1つのA100 GPUで完全にトレーニングされ、テストされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A linear attention mechanism is described to extend the context length of an encoder only transformer, called M5 in this report, to a multi-million single nucleotide resolution foundation model pretrained on bacterial whole genomes. The linear attention mechanism used approximates a full quadratic attention mechanism tightly and has a simple and lightweight implementation for the use case when the key-query embedding dimensionality is low. The M5-small model is entirely trained and tested on one A100 GPU with 40gb of memory up to 196K nucleotides during training and 2M nucleotides during testing. We test the performance of the M5-small model and record notable improvements in performance as whole genome bacterial sequence lengths are increased as well as demonstrating the stability of the full multi-head attention approximation used as sequence length is increased.
- Abstract(参考訳): 本報告では, エンコーダのみのトランスフォーマー(M5)のコンテキスト長を, 細菌全ゲノム上で事前学習した数百万個のヌクレオチド分解基盤モデルに拡張する。
使用した線形アテンション機構は、完全二次アテンション機構を密接に近似し、キー・クエリの埋め込み次元が低い場合に、ユースケースに対してシンプルで軽量な実装を有する。
M5小モデルは、トレーニング中に最大196Kヌクレオチド、テスト中に2Mヌクレオチドを含む40gbのメモリを持つ1つのA100 GPUで完全にトレーニングされ、テストされる。
我々はM5小モデルの性能を検証し、全ゲノムの細菌配列長が増加するとともに、配列長として使われる全マルチヘッドアテンション近似の安定性が向上することを示す。
関連論文リスト
- LA4SR: illuminating the dark proteome with generative AI [39.58317527488534]
我々は、微生物配列分類のためのオープンソースのAI言語モデル(LM)を再設計した。
F1のスコアは95点に達し、16,580倍速く動作した。
我々は、AI生成プロセスにアミノ酸パターンをもたらすカスタムAI説明可能性ソフトウェアツールを提供する。
論文 参考訳(メタデータ) (2024-11-11T08:51:18Z) - Toward Capturing Genetic Epistasis From Multivariate Genome-Wide Association Studies Using Mixed-Precision Kernel Ridge Regression [4.356528958652799]
英国バイオバンクの305K患者を対象としたGWAS(Genome-Wide Association Studies)の出力精度保存混合精度計算の性能を向上する。
低精度GPU演算によるデータ移動ゲインの強化によるタイル中心適応精度線形代数技術
ほぼ完全なAlpsシステム上で1.805の混合精度ExaOp/sで、最先端のCPU専用REGENIE GWASソフトウェアより5桁高い4精度のColeskyベースの解法を新たに導入する。
論文 参考訳(メタデータ) (2024-09-03T08:50:42Z) - Generative Model for Small Molecules with Latent Space RL Fine-Tuning to Protein Targets [4.047608146173188]
トレーニング中に発生する無効な断片化分子の数を減らすため,SAFEに改良を加えた。
本モデルでは, 潜在空間からのサンプリングにより, 有効度90%, フラグメンテーション率1%の新規分子を生成できる。
論文 参考訳(メタデータ) (2024-07-02T16:01:37Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Computational modelling and data-driven homogenisation of knitted
membranes [0.7530103765625609]
大規模編み膜の糸面モデリングは実現不可能である。
本研究では,2段階の均質化手法を検討し,この膜をマクロスケール上のKirchhoff-Loveシェル,マイクロスケール上のEuler-Bernoulliロッドとしてモデル化する。
非線形マイクロスケール問題の解法は、大きな変形と接触制約の強制によりかなりの時間を要する。
論文 参考訳(メタデータ) (2021-07-12T19:51:02Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。