論文の概要: Leveraging Large Language Models for enzymatic reaction prediction and characterization
- arxiv url: http://arxiv.org/abs/2505.05616v1
- Date: Thu, 08 May 2025 19:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.068626
- Title: Leveraging Large Language Models for enzymatic reaction prediction and characterization
- Title(参考訳): 酵素反応予測とキャラクタリゼーションのための大規模言語モデルの活用
- Authors: Lorenzo Di Fruscia, Jana Marie Weber,
- Abstract要約: 大規模言語モデル(LLM)を3つの中核的生化学的タスクで体系的に評価する。
単一タスクとマルチタスクの学習戦略を比較し,LoRAアダプタを用いたパラメータ効率の高い微調整手法を提案する。
以上の結果から, 微調整LDMは生化学的知識を捉えることができ, マルチタスク学習は前方・後生合成予測を促進させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting enzymatic reactions is crucial for applications in biocatalysis, metabolic engineering, and drug discovery, yet it remains a complex and resource-intensive task. Large Language Models (LLMs) have recently demonstrated remarkable success in various scientific domains, e.g., through their ability to generalize knowledge, reason over complex structures, and leverage in-context learning strategies. In this study, we systematically evaluate the capability of LLMs, particularly the Llama-3.1 family (8B and 70B), across three core biochemical tasks: Enzyme Commission number prediction, forward synthesis, and retrosynthesis. We compare single-task and multitask learning strategies, employing parameter-efficient fine-tuning via LoRA adapters. Additionally, we assess performance across different data regimes to explore their adaptability in low-data settings. Our results demonstrate that fine-tuned LLMs capture biochemical knowledge, with multitask learning enhancing forward- and retrosynthesis predictions by leveraging shared enzymatic information. We also identify key limitations, for example challenges in hierarchical EC classification schemes, highlighting areas for further improvement in LLM-driven biochemical modeling.
- Abstract(参考訳): 酵素反応の予測は、生触媒、代謝工学、薬物発見の応用において重要であるが、それでも複雑で資源集約的な課題である。
大規模言語モデル(LLM)は最近、知識を一般化し、複雑な構造を推論し、文脈内学習戦略を活用する能力を通じて、様々な科学領域で顕著な成功を収めた。
本研究では,LLM,特にLlama-3.1ファミリー(8B,70B)の3つの主要な生化学的課題である酵素数予測,前方合成,レトロ合成の能力を体系的に評価した。
単一タスクとマルチタスクの学習戦略を比較し,LoRAアダプタを用いたパラメータ効率の高い微調整手法を提案する。
さらに、さまざまなデータレシスタンスのパフォーマンスを評価し、低データ設定での適合性について検討する。
実験の結果, 微調整LDMは生化学的知識を捉えることができ, マルチタスク学習は, 共用酵素情報を活用することにより, 前方・後生合成予測を促進させることがわかった。
また, 階層型EC分類法における課題など, LLM駆動の生化学モデリングのさらなる改善をめざして, 鍵となる限界を明らかにした。
関連論文リスト
- Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。