論文の概要: BSM: Small but Powerful Biological Sequence Model for Genes and Proteins
- arxiv url: http://arxiv.org/abs/2410.11499v1
- Date: Tue, 15 Oct 2024 11:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:02.939467
- Title: BSM: Small but Powerful Biological Sequence Model for Genes and Proteins
- Title(参考訳): BSM:遺伝子とタンパク質の小さなが強力な生物学的配列モデル
- Authors: Weixi Xiang, Xueting Han, Xiujuan Chai, Jing Bai,
- Abstract要約: 小型ながら強力な混合モード生物配列基盤モデルであるBSMを導入する。
RefSeq、Gene Related Sequences、およびWebから生物学的シークエンスをインターリーブした3種類のデータに基づいてトレーニングされている。
学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れています。
- 参考スコア(独自算出の注目度): 6.6055625629542085
- License:
- Abstract: Modeling biological sequences such as DNA, RNA, and proteins is crucial for understanding complex processes like gene regulation and protein synthesis. However, most current models either focus on a single type or treat multiple types of data separately, limiting their ability to capture cross-modal relationships. We propose that by learning the relationships between these modalities, the model can enhance its understanding of each type. To address this, we introduce BSM, a small but powerful mixed-modal biological sequence foundation model, trained on three types of data: RefSeq, Gene Related Sequences, and interleaved biological sequences from the web. These datasets capture the genetic flow, gene-protein relationships, and the natural co-occurrence of diverse biological data, respectively. By training on mixed-modal data, BSM significantly enhances learning efficiency and cross-modal representation, outperforming models trained solely on unimodal data. With only 110M parameters, BSM achieves performance comparable to much larger models across both single-modal and mixed-modal tasks, and uniquely demonstrates in-context learning capability for mixed-modal tasks, which is absent in existing models. Further scaling to 270M parameters demonstrates even greater performance gains, highlighting the potential of BSM as a significant advancement in multimodal biological sequence modeling.
- Abstract(参考訳): DNA、RNA、タンパク質などの生物学的配列をモデル化することは、遺伝子調節やタンパク質合成のような複雑なプロセスを理解するために重要である。
しかしながら、現在のほとんどのモデルは、単一のタイプにフォーカスするか、複数のタイプのデータを別々に扱うかのいずれかであり、モーダル間の関係をキャプチャする能力を制限する。
これらのモダリティ間の関係を学習することにより、モデルが各タイプの理解を高めることができることを提案する。
これを解決するために、我々は、RefSeq、Gene Related Sequences、およびWebからインターリーブされた生物学的シークエンスという3種類のデータに基づいて訓練された、小さな、しかし強力な混合モーダルな生物学的シークエンスモデルであるBSMを紹介した。
これらのデータセットは、遺伝的フロー、遺伝子とタンパク質の関係、および様々な生物学的データの自然な共起をそれぞれキャプチャする。
混合モーダルデータのトレーニングにより、BSMは学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れた性能を発揮する。
110Mのパラメータだけで、BSMはシングルモーダルタスクとミックスモーダルタスクの両方ではるかに大きなモデルに匹敵する性能を達成し、既存のモデルにはない混合モーダルタスクのコンテキスト内学習能力をユニークに示す。
さらに270Mパラメータへのスケーリングは、BSMがマルチモーダルな生物学的シーケンスモデリングにおいて重要な進歩である可能性を強調し、さらなるパフォーマンス向上を示す。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs [27.32543389443672]
独立に訓練された単調FMをブリッジしてマルチモーダル動作を確立するための,パラメータ効率のよい新しい学習フレームワークであるBioBridgeを提案する。
実験結果から,BioBridgeは最高基準のKG埋め込み法に勝ることを示した。
また、BioBridgeは、未知のモダリティや関係を外挿することで、ドメイン外一般化能力を示す。
論文 参考訳(メタデータ) (2023-10-05T05:30:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。