論文の概要: BioBridge: Bridging Proteins and Language for Enhanced Biological Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2602.17680v1
- Date: Wed, 04 Feb 2026 13:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.509368
- Title: BioBridge: Bridging Proteins and Language for Enhanced Biological Reasoning with LLMs
- Title(参考訳): BioBridge: LLMによる生物反応の増強のためのタンパク質と言語
- Authors: Yujia Wang, Jihong Guan, Wengen Li, Shuigeng Zhou, Xuhong Wang,
- Abstract要約: BioBridgeはタンパク質理解のためのドメイン適応型連続的事前学習フレームワークである。
提案するBioBridgeは、複数のタンパク質ベンチマークにおいて、メインストリームのPLMに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 40.50730320622891
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing Protein Language Models (PLMs) often suffer from limited adaptability to multiple tasks and exhibit poor generalization across diverse biological contexts. In contrast, general-purpose Large Language Models (LLMs) lack the capability to interpret protein sequences and fall short in domain-specific knowledge, limiting their capacity for effective biosemantic reasoning. To combine the advantages of both, we propose BioBridge, a domain-adaptive continual pretraining framework for protein understanding. This framework employs Domain-Incremental Continual Pre-training (DICP) to infuse protein domain knowledge and general reasoning corpus into a LLM simultaneously, effectively mitigating catastrophic forgetting. Cross-modal alignment is achieved via a PLM-Projector-LLM pipeline, which maps protein sequence embeddings into the semantic space of the language model. Ultimately, an end-to-end optimization is adopted to uniformly support various tasks, including protein property prediction and knowledge question-answering. Our proposed BioBridge demonstrates performance comparable to that of mainstream PLMs on multiple protein benchmarks, such as EC and BindingDB. It also achieves results on par with LLMs on general understanding tasks like MMLU and RACE. This showcases its innovative advantage of combining domain-specific adaptability with general-purpose language competency.
- Abstract(参考訳): 既存のタンパク質言語モデル(PLM)は、しばしば複数のタスクへの適応性の制限に悩まされ、様々な生物学的文脈における一般化の欠如を示す。
対照的に、汎用大規模言語モデル(LLM)には、タンパク質配列を解釈する能力がなく、ドメイン固有の知識に乏しく、効果的なバイオセマンティック推論の能力に制限がある。
両者の利点を組み合わせるために,タンパク質理解のためのドメイン適応型連続事前学習フレームワークであるBioBridgeを提案する。
このフレームワークは、ドメイン・インクリメンタル・コンティニュショナル・プレトレーニング(DICP)を使用して、タンパク質ドメインの知識と一般推論コーパスをLLMに同時に注入し、破滅的な忘れを効果的に軽減する。
PLM-Projector-LLMパイプラインは、タンパク質配列の埋め込みを言語モデルのセマンティック空間にマッピングする。
究極的には、タンパク質特性予測や知識質問応答など、様々なタスクを均一にサポートするために、エンドツーエンドの最適化が採用されている。
提案するBioBridgeは、ECやBindingDBなど、複数のタンパク質ベンチマークにおいて、メインストリームのPLMに匹敵する性能を示す。
また、MMLUやRASといった一般的な理解タスクにおいて、LLMと同等の結果が得られる。
これは、ドメイン固有の適応性と汎用言語能力を組み合わせるという、革新的な利点を示している。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Protein as a Second Language for LLMs [50.34983283157322]
『Protein-as-Second-Language』の枠組みは、新しいシンボリック言語における文としてアミノ酸配列を再構成する。
属性予測,記述的理解,拡張推論にまたがる79,926個のタンパク質-QAインスタンスのバイリンガルコーパスをキュレートする。
提案手法は,オープンソース LLM と GPT-4 間で一貫した利得を提供し,最大 17.2% のROUGE-L 改善を実現している。
論文 参考訳(メタデータ) (2025-10-13T09:21:45Z) - BioVERSE: Representation Alignment of Biomedical Modalities to LLMs for Multi-Modal Reasoning [0.36855563110245826]
本稿では,事前学習したBioFMをモダリティエンコーダとして適応する2段階のアプローチであるBIOVERSEを提案する。
このアプローチはまず、各モダリティを共有 LLM 空間に整列する。
次に、マルチモーダルデータによる標準的な命令チューニングを適用して、下流の推論のためにそれらをまとめる。
論文 参考訳(メタデータ) (2025-10-01T20:07:36Z) - PLM-eXplain: Divide and Conquer the Protein Embedding Space [0.0]
PLM-eXplain (PLM-X)について説明する。
PLM-Xは、PLM埋め込みを2つの構成要素に分解することでギャップを埋める: 確立された生化学的特徴に基づく解釈可能な部分空間と、モデルの予測力を保存する残留部分空間である。
3つのタンパク質レベルの分類課題にまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-09T10:46:24Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding with LLMs [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では,新しい構造認識モジュールをpLMに組み込んで構造知識を充実させる。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Linguistically inspired roadmap for building biologically reliable
protein language models [0.5412332666265471]
言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
論文 参考訳(メタデータ) (2022-07-03T08:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。