論文の概要: OpenChemIE: An Information Extraction Toolkit For Chemistry Literature
- arxiv url: http://arxiv.org/abs/2404.01462v1
- Date: Mon, 1 Apr 2024 20:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:37:09.840666
- Title: OpenChemIE: An Information Extraction Toolkit For Chemistry Literature
- Title(参考訳): OpenChemIE: 化学文献のための情報抽出ツールキット
- Authors: Vincent Fan, Yujie Qian, Alex Wang, Amber Wang, Connor W. Coley, Regina Barzilay,
- Abstract要約: OpenChemIEは化学文献から反応データを抽出するツールである。
我々は、化学情報抽出の特定のタスクに対処する専門的なニューラルモデルを採用する。
我々は、パイプライン全体を評価するために、Rグループによる反応スキームの挑戦的なデータセットを慎重に注釈付けする。
- 参考スコア(独自算出の注目度): 37.23189665773341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction from chemistry literature is vital for constructing up-to-date reaction databases for data-driven chemistry. Complete extraction requires combining information across text, tables, and figures, whereas prior work has mainly investigated extracting reactions from single modalities. In this paper, we present OpenChemIE to address this complex challenge and enable the extraction of reaction data at the document level. OpenChemIE approaches the problem in two steps: extracting relevant information from individual modalities and then integrating the results to obtain a final list of reactions. For the first step, we employ specialized neural models that each address a specific task for chemistry information extraction, such as parsing molecules or reactions from text or figures. We then integrate the information from these modules using chemistry-informed algorithms, allowing for the extraction of fine-grained reaction data from reaction condition and substrate scope investigations. Our machine learning models attain state-of-the-art performance when evaluated individually, and we meticulously annotate a challenging dataset of reaction schemes with R-groups to evaluate our pipeline as a whole, achieving an F1 score of 69.5%. Additionally, the reaction extraction results of \ours attain an accuracy score of 64.3% when directly compared against the Reaxys chemical database. We provide OpenChemIE freely to the public as an open-source package, as well as through a web interface.
- Abstract(参考訳): 化学文献からの情報抽出は、データ駆動化学のための最新の反応データベースの構築に不可欠である。
完全抽出には、テキスト、表、図形にまたがる情報の組み合わせが必要であるが、先行研究は主に単一モーダルからの反応の抽出について研究している。
本稿では、この複雑な課題に対処し、文書レベルでの反応データの抽出を可能にするためにOpenChemIEを提案する。
OpenChemIEは、個々のモダリティから関連する情報を抽出し、結果を統合して最終的な反応リストを得る、2つのステップでこの問題にアプローチする。
最初のステップでは、それぞれが化学情報抽出の特定のタスク、例えば分子の解析やテキストや図からの反応に対処する専門的なニューラルモデルを採用しています。
次に、これらのモジュールからの情報を化学インフォームドアルゴリズムを用いて統合し、反応条件から微細な反応データを抽出し、基板範囲の調査を行う。
我々の機械学習モデルは、個別に評価された場合、最先端のパフォーマンスを得ることができ、かつ、Rグループによる反応スキームの挑戦的なデータセットを慎重にアノテートして、パイプライン全体を評価し、F1スコア69.5%を達成する。
さらに、Shaoursの反応抽出結果は、Reaxysの化学データベースと直接比較した場合の精度スコアが64.3%に達する。
OpenChemIEをオープンソースパッケージとして、Webインターフェースを通じて、自由に公開しています。
関連論文リスト
- ReactXT: Understanding Molecular "Reaction-ship" via Reaction-Contextualized Molecule-Text Pretraining [76.51346919370005]
反応テキストモデリングのためのReactXTと実験手順予測のためのOpenExpを提案する。
ReactXTは、インプットコンテキストの3つのタイプをインクリメンタルに事前トレーニングする。
私たちのコードはhttps://github.com/syr-cn/ReactXT.comで公開されています。
論文 参考訳(メタデータ) (2024-05-23T06:55:59Z) - EnzChemRED, a rich enzyme chemistry relation extraction dataset [3.6124226106001]
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成され、そこでは酵素と触媒する化学反応がアノテートされる。
EnzChemREDを用いた微調整済み言語モデルは、テキスト中のタンパク質や化学物質の言及を識別する能力を著しく向上させることができることを示す。
本稿では,EnzChemREDを微調整して,テキストから知識を抽出するエンド・ツー・エンド・エンドのパイプラインを作成する。
論文 参考訳(メタデータ) (2024-04-22T14:18:34Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Predictive Chemistry Augmented with Text Retrieval [37.59545092901872]
文献から得られたテキストで予測化学を直接拡張する新しい方法であるTextReactを紹介する。
TextReactは、所定の化学反応に関連するテキスト記述を検索し、それらを反応の分子的表現と整合させる。
反応条件の推薦と1段階の逆合成という2つの化学課題の枠組みを実証的に検証した。
論文 参考訳(メタデータ) (2023-12-08T07:40:59Z) - ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision [27.850325653751078]
構造化化学反応情報は、実験とコンピュータ支援医薬品設計のような先進的な取り組みに携わる化学者にとって重要な役割を担っている。
科学的文献から構造的反応を抽出することが重要であるにもかかわらず、この目的のためのデータアノテーションは、ドメインの専門家が必要とする多大な労力のためにコストを抑えることができる。
本稿では,2つの弱教師付き事前学習手法を組み合わせたReactIEを提案する。本手法では,テキスト内の頻繁なパターンを言語的手がかりとして用いて,化学反応の特異な特性を同定する。
論文 参考訳(メタデータ) (2023-07-04T02:52:30Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Named entity recognition in chemical patents using ensemble of
contextual language models [0.3731111830152912]
化学特許から情報を取り出すための文脈型言語モデルの有効性について検討する。
我々の最良のモデルは、多数アンサンブルのアプローチに基づくもので、正確なF1スコアは92.30%、緩和されたF1スコアは96.24%に達する。
論文 参考訳(メタデータ) (2020-07-24T15:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。