論文の概要: EnzChemRED, a rich enzyme chemistry relation extraction dataset
- arxiv url: http://arxiv.org/abs/2404.14209v1
- Date: Mon, 22 Apr 2024 14:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:47:08.918451
- Title: EnzChemRED, a rich enzyme chemistry relation extraction dataset
- Title(参考訳): EnzChemRED : リッチ酵素化学相関分析データセット
- Authors: Po-Ting Lai, Elisabeth Coudert, Lucila Aimo, Kristian Axelsen, Lionel Breuza, Edouard de Castro, Marc Feuermann, Anne Morgat, Lucille Pourcel, Ivo Pedruzzi, Sylvain Poux, Nicole Redaschi, Catherine Rivoire, Anastasia Sveshnikova, Chih-Hsuan Wei, Robert Leaman, Ling Luo, Zhiyong Lu, Alan Bridge,
- Abstract要約: EnzChemREDは1,210名の専門家によるPubMed抽象体から構成され、そこでは酵素と触媒する化学反応がアノテートされる。
EnzChemREDを用いた微調整済み言語モデルは、テキスト中のタンパク質や化学物質の言及を識別する能力を著しく向上させることができることを示す。
本稿では,EnzChemREDを微調整して,テキストから知識を抽出するエンド・ツー・エンド・エンドのパイプラインを作成する。
- 参考スコア(独自算出の注目度): 3.6124226106001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expert curation is essential to capture knowledge of enzyme functions from the scientific literature in FAIR open knowledgebases but cannot keep pace with the rate of new discoveries and new publications. In this work we present EnzChemRED, for Enzyme Chemistry Relation Extraction Dataset, a new training and benchmarking dataset to support the development of Natural Language Processing (NLP) methods such as (large) language models that can assist enzyme curation. EnzChemRED consists of 1,210 expert curated PubMed abstracts in which enzymes and the chemical reactions they catalyze are annotated using identifiers from the UniProt Knowledgebase (UniProtKB) and the ontology of Chemical Entities of Biological Interest (ChEBI). We show that fine-tuning pre-trained language models with EnzChemRED can significantly boost their ability to identify mentions of proteins and chemicals in text (Named Entity Recognition, or NER) and to extract the chemical conversions in which they participate (Relation Extraction, or RE), with average F1 score of 86.30% for NER, 86.66% for RE for chemical conversion pairs, and 83.79% for RE for chemical conversion pairs and linked enzymes. We combine the best performing methods after fine-tuning using EnzChemRED to create an end-to-end pipeline for knowledge extraction from text and apply this to abstracts at PubMed scale to create a draft map of enzyme functions in literature to guide curation efforts in UniProtKB and the reaction knowledgebase Rhea. The EnzChemRED corpus is freely available at https://ftp.expasy.org/databases/rhea/nlp/.
- Abstract(参考訳): 専門家のキュレーションは、FAIRのオープンナレッジベースにおける科学文献から酵素機能の知識を取得するのに不可欠であるが、新しい発見や新しい出版物の速度に追随することができない。
本研究では,酵素キュレーションを支援する自然言語処理(NLP)手法の開発を支援するために,酵素化学関係抽出データセット(Enzyme Chemistry Relation extract Dataset)を提案する。
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成されており、酵素とそれらが触媒する化学反応はUniProt Knowledgebase(UniProtKB)の識別子とChEBI(ChEBI)のオントロジーを用いてアノテートされる。
本研究では,EnzChemREDを用いた微調整済み言語モデルにより,テキスト中のタンパク質や化学物質の言及(名前付きエンティティ認識,NER)を識別し,それらが関与する化学変換(Relation extract,RE)を抽出する能力が著しく向上し,化学変換ペアのF1スコアが86.30%,化学変換ペアのREが86.66%,化学変換ペアと結合酵素のREが83.79%であった。
テキストから知識を抽出するためのエンドツーエンドパイプラインを作成し,これをPubMedスケールで抽象化し,文献中の酵素機能のドラフトマップを作成し,UniProtKBとリアクション知識ベースRheaのキュレーションをガイドする。
EnzChemRED corpusはhttps://ftp.expasy.org/databases/rhea/nlp/で無料で利用できる。
関連論文リスト
- OpenChemIE: An Information Extraction Toolkit For Chemistry Literature [37.23189665773341]
OpenChemIEは化学文献から反応データを抽出するツールである。
我々は、化学情報抽出の特定のタスクに対処する専門的なニューラルモデルを採用する。
我々は、パイプライン全体を評価するために、Rグループによる反応スキームの挑戦的なデータセットを慎重に注釈付けする。
論文 参考訳(メタデータ) (2024-04-01T20:16:21Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision [27.850325653751078]
構造化化学反応情報は、実験とコンピュータ支援医薬品設計のような先進的な取り組みに携わる化学者にとって重要な役割を担っている。
科学的文献から構造的反応を抽出することが重要であるにもかかわらず、この目的のためのデータアノテーションは、ドメインの専門家が必要とする多大な労力のためにコストを抑えることができる。
本稿では,2つの弱教師付き事前学習手法を組み合わせたReactIEを提案する。本手法では,テキスト内の頻繁なパターンを言語的手がかりとして用いて,化学反応の特異な特性を同定する。
論文 参考訳(メタデータ) (2023-07-04T02:52:30Z) - End-to-End Models for Chemical-Protein Interaction Extraction: Better
Tokenization and Span-Based Pipeline Strategies [1.782718930156674]
我々は、ChemProtデータセット上で新しい最先端のE2EREパフォーマンスを生成するために、スパンベースのパイプラインアプローチを採用している。
提案手法は,E2EREにおいて,スパンベースアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2023-04-03T20:20:22Z) - Tailoring Molecules for Protein Pockets: a Transformer-based Generative
Solution for Structured-based Drug Design [133.1268990638971]
標的タンパク質の構造に基づくデノボ薬物の設計は、新規な薬物候補を提供することができる。
そこで本研究では,特定のターゲットに対して,対象薬物をスクラッチから直接生成できるTamGentという生成ソリューションを提案する。
論文 参考訳(メタデータ) (2022-08-30T09:32:39Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Named entity recognition in chemical patents using ensemble of
contextual language models [0.3731111830152912]
化学特許から情報を取り出すための文脈型言語モデルの有効性について検討する。
我々の最良のモデルは、多数アンサンブルのアプローチに基づくもので、正確なF1スコアは92.30%、緩和されたF1スコアは96.24%に達する。
論文 参考訳(メタデータ) (2020-07-24T15:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。