論文の概要: Beyond Protein Language Models: An Agentic LLM Framework for Mechanistic Enzyme Design
- arxiv url: http://arxiv.org/abs/2511.19423v1
- Date: Mon, 24 Nov 2025 18:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.378345
- Title: Beyond Protein Language Models: An Agentic LLM Framework for Mechanistic Enzyme Design
- Title(参考訳): タンパク質言語モデルを超えて:機械的酵素設計のためのエージェントLLMフレームワーク
- Authors: Bruno Jacob, Khushbu Agarwal, Marcel Baer, Peter Rice, Simone Raugei,
- Abstract要約: Genie-CAT (Genie-CAT) は、タンパク質設計における科学的仮説生成を加速するために設計されたツール拡張大型言語モデル(LLM)システムである。
システムは機械的に解釈可能な、テスト可能な仮説のリンクシーケンス、構造、関数を生成する。
- 参考スコア(独自算出の注目度): 0.8471442044818615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Genie-CAT, a tool-augmented large-language-model (LLM) system designed to accelerate scientific hypothesis generation in protein design. Using metalloproteins (e.g., ferredoxins) as a case study, Genie-CAT integrates four capabilities -- literature-grounded reasoning through retrieval-augmented generation (RAG), structural parsing of Protein Data Bank files, electrostatic potential calculations, and machine-learning prediction of redox properties -- into a unified agentic workflow. By coupling natural-language reasoning with data-driven and physics-based computation, the system generates mechanistically interpretable, testable hypotheses linking sequence, structure, and function. In proof-of-concept demonstrations, Genie-CAT autonomously identifies residue-level modifications near [Fe--S] clusters that affect redox tuning, reproducing expert-derived hypotheses in a fraction of the time. The framework highlights how AI agents combining language models with domain-specific tools can bridge symbolic reasoning and numerical simulation, transforming LLMs from conversational assistants into partners for computational discovery.
- Abstract(参考訳): 本稿では,タンパク質設計における科学的仮説生成を高速化するツール拡張型大言語モデル(LLM)システムであるGenie-CATを提案する。
メタロプロテイン(例えばフェレドキシン)をケーススタディとして、Genie-CATは、検索強化世代(RAG)による文学的な推論、タンパク質データバンクファイルの構造解析、静電ポテンシャル計算、および機械学習による酸化還元特性の予測の4つの機能を統合されたエージェントワークフローに統合する。
データ駆動型および物理ベースの計算と自然言語推論を結合することにより、システムは機械的に解釈可能な、テスト可能な仮説リンクシーケンス、構造、関数を生成する。
概念実証では、Genie-CATは(Fe-S)クラスタの近傍で、リドックスチューニングに影響を及ぼす残基レベルの修正を自律的に特定し、専門家由来の仮説を短時間で再現する。
このフレームワークは、AIエージェントが言語モデルとドメイン固有のツールを組み合わせることで、シンボリック推論と数値シミュレーションをブリッジし、LLMを会話アシスタントから計算発見のためのパートナーに変換する方法について強調している。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Prot2Chat: Protein LLM with Early-Fusion of Text, Sequence and Structure [7.9473027178525975]
タンパク質配列と構造情報を統一的にエンコードするために,タンパク質MPNNを改変した。
我々は,大規模言語モデル(LLM)を用いて質問をベクトルにエンコードし,タンパク質情報を仮想トークンに圧縮するタンパク質テキストアダプタを開発した。
論文 参考訳(メタデータ) (2025-02-07T05:23:16Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - A Transformer Based Generative Chemical Language AI Model for Structural Elucidation of Organic Compounds [1.5628118690186594]
本稿では,概念変換器を用いた生成化学言語人工知能(AI)モデルを提案する。
我々のモデルはエンコーダ・デコーダアーキテクチャと自己保持機構を用いて、最も可能性の高い化学構造を直接生成する。
現代のCPUでは、29個の原子を持つ分子をわずか数秒で構造解明し、83%の精度でトップ15を達成している。
論文 参考訳(メタデータ) (2024-10-13T15:41:20Z) - X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Molecular Design [0.0]
低ランク適応(LoRA)に基づくディープ・レイヤ・ワイド・トークン・レベル・アプローチを用いて、微調整された大規模言語モデルを作成するための専門家戦略の混合を報告する。
このデザインは、ニューラルネットワーク構築ブロックをさまざまな階層的な表現で再利用する、普遍性と多様性の生物学的原則にインスパイアされている。
我々は, バイオマテリアル分析, タンパク質力学, 設計に焦点をあてた, フォワード/逆解析タスク, 推論能力の強化など, 科学的能力を提供するX-LoRAモデルを開発した。
論文 参考訳(メタデータ) (2024-02-11T10:23:34Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Incorporating network based protein complex discovery into automated
model construction [6.587739898387445]
本稿では, 知識を取り入れた癌表現型ネットワークの遺伝子発現解析手法を提案する。
計算グラフの構造的構造は、タンパク質-タンパク質ネットワーク上のトポロジ的クラスタリングアルゴリズムを用いて決定される。
論文 参考訳(メタデータ) (2020-09-29T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。