論文の概要: zERExtractor:An Automated Platform for Enzyme-Catalyzed Reaction Data Extraction from Scientific Literature
- arxiv url: http://arxiv.org/abs/2508.09995v1
- Date: Wed, 30 Jul 2025 07:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.183375
- Title: zERExtractor:An Automated Platform for Enzyme-Catalyzed Reaction Data Extraction from Scientific Literature
- Title(参考訳): zERExtractor:科学文献からの酵素触媒反応データ抽出のための自動プラットフォーム
- Authors: Rui Zhou, Haohui Ma, Tianle Xin, Lixin Zou, Qiuyue Hu, Hongxi Cheng, Mingzhi Lin, Jingjing Guo, Sheng Wang, Guoqing Zhang, Yanjie Wei, Liangzhen Zheng,
- Abstract要約: zERExtractorは、酵素触媒による反応と活性データを科学文献から総合的に抽出する自動化プラットフォームである。
我々のパイプラインは、ドメイン適応型ディープラーニング、高度なOCR、セマンティックエンティティ認識、およびプロンプト駆動LLMモジュールを組み合わせる。
270のP450関連酵素学論文から1,000以上の注釈付きテーブルと5,000の生物学的フィールドからなる大規模なベンチマークデータセットを作成した。
- 参考スコア(独自算出の注目度): 12.109637682144125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of enzyme kinetics literature has outpaced the curation capabilities of major biochemical databases, creating a substantial barrier to AI-driven modeling and knowledge discovery. We present zERExtractor, an automated and extensible platform for comprehensive extraction of enzyme-catalyzed reaction and activity data from scientific literature. zERExtractor features a unified, modular architecture that supports plug-and-play integration of state-of-the-art models, including large language models (LLMs), as interchangeable components, enabling continuous system evolution alongside advances in AI. Our pipeline combines domain-adapted deep learning, advanced OCR, semantic entity recognition, and prompt-driven LLM modules, together with human expert corrections, to extract kinetic parameters (e.g., kcat, Km), enzyme sequences, substrate SMILES, experimental conditions, and molecular diagrams from heterogeneous document formats. Through active learning strategies integrating AI-assisted annotation, expert validation, and iterative refinement, the system adapts rapidly to new data sources. We also release a large benchmark dataset comprising over 1,000 annotated tables and 5,000 biological fields from 270 P450-related enzymology publications. Benchmarking demonstrates that zERExtractor consistently outperforms existing baselines in table recognition (Acc 89.9%), molecular image interpretation (up to 99.1%), and relation extraction (accuracy 94.2%). zERExtractor bridges the longstanding data gap in enzyme kinetics with a flexible, plugin-ready framework and high-fidelity extraction, laying the groundwork for future AI-powered enzyme modeling and biochemical knowledge discovery.
- Abstract(参考訳): 酵素キネティックス文学の急速な拡大は、主要な生化学データベースのキュレーション能力を上回っ、AI駆動のモデリングと知識発見に対する大きな障壁を生み出した。
本稿では, 酵素触媒による反応および活性データの自動抽出プラットフォームであるzERExtractorについて述べる。
zERExtractorは、大きな言語モデル(LLM)を交換可能なコンポーネントとして含む最先端モデルのプラグインとプレイの統合をサポートし、AIの進歩と並行して継続的システムの進化を可能にする、統一されたモジュラーアーキテクチャを備えている。
我々のパイプラインは、ドメイン適応型深層学習、高度なOCR、セマンティックエンティティ認識、およびアクシデント駆動LLMモジュールを人間の専門家による補正と組み合わせて、ヘテロジニアス文書フォーマットから運動パラメータ(例えば、kcat、Km)、酵素配列、基質SMILES、実験条件、分子図を抽出する。
AI支援アノテーションの統合、専門家の検証、反復的な改善など、アクティブな学習戦略を通じて、システムは新たなデータソースに迅速に適応する。
また、270のP450関連酵素出版物から1,000以上の注釈付きテーブルと5,000の生物学的フィールドからなる大規模なベンチマークデータセットもリリースした。
ベンチマークにより、zERExtractorは、テーブル認識(Acc 89.9%)、分子画像解釈(99.1%)、関係抽出(94.2%)において、既存のベースラインを一貫して上回っていることが示されている。
zERExtractorは、フレキシブルでプラグイン対応のフレームワークと高忠実度抽出によって、酵素の速度論における長年のデータギャップを埋める。
関連論文リスト
- HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - EnzChemRED, a rich enzyme chemistry relation extraction dataset [3.6124226106001]
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成され、そこでは酵素と触媒する化学反応がアノテートされる。
EnzChemREDを用いた微調整済み言語モデルは、テキスト中のタンパク質や化学物質の言及を識別する能力を著しく向上させることができることを示す。
本稿では,EnzChemREDを微調整して,テキストから知識を抽出するエンド・ツー・エンド・エンドのパイプラインを作成する。
論文 参考訳(メタデータ) (2024-04-22T14:18:34Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - MolTrans: Molecular Interaction Transformer for Drug Target Interaction
Prediction [68.5766865583049]
薬物標的相互作用(DTI)予測は、シリコ薬物発見の基本的な課題である。
近年、DTI予測におけるディープラーニングの進歩が期待されている。
これらの制約に対処する分子間相互作用変換器(TransMol)を提案する。
論文 参考訳(メタデータ) (2020-04-23T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。