論文の概要: BioLangFusion: Multimodal Fusion of DNA, mRNA, and Protein Language Models
- arxiv url: http://arxiv.org/abs/2506.08936v1
- Date: Tue, 10 Jun 2025 16:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.776938
- Title: BioLangFusion: Multimodal Fusion of DNA, mRNA, and Protein Language Models
- Title(参考訳): BioLangFusion:DNA、mRNA、タンパク質言語モデルのマルチモーダル融合
- Authors: Amina Mollaysa, Artem Moskale, Pushpak Pati, Tommaso Mansi, Mangal Prakash, Rui Liao,
- Abstract要約: 我々は、事前訓練されたDNA、mRNA、タンパク質言語モデルを統一された分子表現に統合するための簡単なアプローチであるBioLangFusionを提案する。
i)コドンレベルの埋め込み結合、(ii)マルチインスタンス学習にインスパイアされたエントロピー規則化されたアテンションプール、(iii)クロスモーダルマルチヘッドアテンションの3つの融合技術について研究した。
- 参考スコア(独自算出の注目度): 4.03394966596019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BioLangFusion, a simple approach for integrating pre-trained DNA, mRNA, and protein language models into unified molecular representations. Motivated by the central dogma of molecular biology (information flow from gene to transcript to protein), we align per-modality embeddings at the biologically meaningful codon level (three nucleotides encoding one amino acid) to ensure direct cross-modal correspondence. BioLangFusion studies three standard fusion techniques: (i) codon-level embedding concatenation, (ii) entropy-regularized attention pooling inspired by multiple-instance learning, and (iii) cross-modal multi-head attention -- each technique providing a different inductive bias for combining modality-specific signals. These methods require no additional pre-training or modification of the base models, allowing straightforward integration with existing sequence-based foundation models. Across five molecular property prediction tasks, BioLangFusion outperforms strong unimodal baselines, showing that even simple fusion of pre-trained models can capture complementary multi-omic information with minimal overhead.
- Abstract(参考訳): 我々は、事前訓練されたDNA、mRNA、タンパク質言語モデルを統一された分子表現に統合するための簡単なアプローチであるBioLangFusionを提案する。
分子生物学の中心的ドグマ(遺伝子から転写物からタンパク質への情報フロー)に刺激され、生体的に有意なコドンレベル(アミノ酸をコードする3つのヌクレオチド)に、各モダリティの埋め込みを整列させ、直接のクロスモーダル対応を確実にする。
BioLangFusionは3つの標準核融合技術を研究する。
(i)コドンレベルの埋め込み結合
(II)マルチスタンス学習に触発されたエントロピー調整型アテンションプール
3) クロスモーダルなマルチヘッドアテンション -- 各テクニックは、モーダリティ固有の信号を組み合わせるために異なる誘導バイアスを与える。
これらの方法は、ベースモデルの事前訓練や修正を必要とせず、既存のシーケンスベースの基盤モデルと簡単に統合できる。
5つの分子特性予測タスクの中で、BioLangFusionは強い単調なベースラインよりも優れており、事前訓練されたモデルの単純な融合でさえ、最小限のオーバーヘッドで相補的な多相情報をキャプチャできることを示している。
関連論文リスト
- A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery [32.573496601865465]
構造に基づく薬物発見(Structure-based drug discovery、SBDD)は、標的タンパク質の詳細な物理的構造を利用して新しい薬物を開発する体系的な科学的プロセスである。
生体分子の事前学習モデルの最近の進歩は、様々な生化学的応用において顕著な成功を収めている。
論文 参考訳(メタデータ) (2025-03-06T12:04:56Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。