論文の概要: M5: A Whole Genome Bacterial Encoder at Single Nucleotide Resolution
- arxiv url: http://arxiv.org/abs/2407.03392v1
- Date: Wed, 3 Jul 2024 15:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:20:26.133724
- Title: M5: A Whole Genome Bacterial Encoder at Single Nucleotide Resolution
- Title(参考訳): M5:1個のヌクレオチド分解能を持つ全ゲノム細菌エンコーダ
- Authors: Agust Egilsson,
- Abstract要約: 線形アテンション機構は、エンコーダのみ変換器(M5)のコンテキスト長を、細菌全ゲノム上で事前訓練された数百万の単一ヌクレオチド分解基盤モデルに拡張する。
M5小モデルは、トレーニング中に最大196Kヌクレオチド、テスト中に2Mヌクレオチドを含む40gbのメモリを持つ1つのA100 GPUで完全にトレーニングされ、テストされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A linear attention mechanism is described to extend the context length of an encoder only transformer, called M5 in this report, to a multi-million single nucleotide resolution foundation model pretrained on bacterial whole genomes. The linear attention mechanism used approximates a full quadratic attention mechanism tightly and has a simple and lightweight implementation for the use case when the key-query embedding dimensionality is low. The M5-small model is entirely trained and tested on one A100 GPU with 40gb of memory up to 196K nucleotides during training and 2M nucleotides during testing. We test the performance of the M5-small model and record notable improvements in performance as whole genome bacterial sequence lengths are increased as well as demonstrating the stability of the full multi-head attention approximation used as sequence length is increased.
- Abstract(参考訳): 本報告では, エンコーダのみのトランスフォーマー(M5)のコンテキスト長を, 細菌全ゲノム上で事前学習した数百万個のヌクレオチド分解基盤モデルに拡張する。
使用した線形アテンション機構は、完全二次アテンション機構を密接に近似し、キー・クエリの埋め込み次元が低い場合に、ユースケースに対してシンプルで軽量な実装を有する。
M5小モデルは、トレーニング中に最大196Kヌクレオチド、テスト中に2Mヌクレオチドを含む40gbのメモリを持つ1つのA100 GPUで完全にトレーニングされ、テストされる。
我々はM5小モデルの性能を検証し、全ゲノムの細菌配列長が増加するとともに、配列長として使われる全マルチヘッドアテンション近似の安定性が向上することを示す。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Improving the U-Net Configuration for Automated Delineation of Head and Neck Cancer on MRI [0.0]
MRIにおける腫瘍体積のセグメンテーションは困難で時間を要するプロセスである。
本研究は,頭部および頸部腫瘍のMRI画像における自動デライン化へのアプローチを示す。
本研究の目的は,医学的セグメンテーションタスクで一般的に使用される構成の改善を提案することである。
論文 参考訳(メタデータ) (2025-01-09T10:22:35Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - LA4SR: illuminating the dark proteome with generative AI [39.58317527488534]
我々は、微生物配列分類のためのオープンソースのAI言語モデル(LM)を再設計した。
F1のスコアは95点に達し、16,580倍速く動作した。
我々は、AI生成プロセスにアミノ酸パターンをもたらすカスタムAI説明可能性ソフトウェアツールを提供する。
論文 参考訳(メタデータ) (2024-11-11T08:51:18Z) - Generative Model for Small Molecules with Latent Space RL Fine-Tuning to Protein Targets [4.047608146173188]
トレーニング中に発生する無効な断片化分子の数を減らすため,SAFEに改良を加えた。
本モデルでは, 潜在空間からのサンプリングにより, 有効度90%, フラグメンテーション率1%の新規分子を生成できる。
論文 参考訳(メタデータ) (2024-07-02T16:01:37Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Computational modelling and data-driven homogenisation of knitted
membranes [0.7530103765625609]
大規模編み膜の糸面モデリングは実現不可能である。
本研究では,2段階の均質化手法を検討し,この膜をマクロスケール上のKirchhoff-Loveシェル,マイクロスケール上のEuler-Bernoulliロッドとしてモデル化する。
非線形マイクロスケール問題の解法は、大きな変形と接触制約の強制によりかなりの時間を要する。
論文 参考訳(メタデータ) (2021-07-12T19:51:02Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。