論文の概要: ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining
- arxiv url: http://arxiv.org/abs/2402.12993v2
- Date: Mon, 30 Jun 2025 08:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.302659
- Title: ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining
- Title(参考訳): ChemMiner: 化学文献データマイニングのための大規模言語モデルエージェントシステム
- Authors: Kexin Chen, Yuyang Du, Junyou Li, Hanqun Cao, Menghao Guo, Xilin Dang, Lanqing Li, Jiezhong Qiu, Pheng Ann Heng, Guangyong Chen,
- Abstract要約: ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
- 参考スコア(独自算出の注目度): 56.15126714863963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of AI-assisted chemical synthesis tools requires comprehensive datasets covering diverse reaction types, yet current high-throughput experimental (HTE) approaches are expensive and limited in scope. Chemical literature represents a vast, underexplored data source containing thousands of reactions published annually. However, extracting reaction information from literature faces significant challenges including varied writing styles, complex coreference relationships, and multimodal information presentation. This paper proposes ChemMiner, a novel end-to-end framework leveraging multiple agents powered by large language models (LLMs) to extract high-fidelity chemical data from literature. ChemMiner incorporates three specialized agents: a text analysis agent for coreference mapping, a multimodal agent for non-textual information extraction, and a synthesis analysis agent for data generation. Furthermore, we developed a comprehensive benchmark with expert-annotated chemical literature to evaluate both extraction efficiency and precision. Experimental results demonstrate reaction identification rates comparable to human chemists while significantly reducing processing time, with high accuracy, recall, and F1 scores. Our open-sourced benchmark facilitates future research in chemical literature data mining.
- Abstract(参考訳): AI支援化学合成ツールの開発には、多様な反応タイプをカバーする包括的なデータセットが必要であるが、現在のハイスループット実験(HTE)アプローチは高価でスコープが限られている。
化学文献は、毎年発行される何千もの反応を含む膨大な、未調査のデータ源である。
しかし、文献から反応情報を抽出することは、様々な書体スタイル、複雑なコア参照関係、マルチモーダル情報提示など、重大な課題に直面している。
本稿では,大規模言語モデル(LLM)をベースとした複数エージェントを応用し,文献から高忠実な化学データを抽出する,新たなエンドツーエンドフレームワークであるChemMinerを提案する。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
さらに, 抽出効率と精度を両立させるため, 専門家による化学文献を用いた総合的なベンチマークを作成した。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
我々のオープンソースベンチマークは、化学文献データマイニングの今後の研究を促進する。
関連論文リスト
- ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - Validation of the Scientific Literature via Chemputation Augmented by Large Language Models [0.0]
化学計算は、普遍的な記号言語を用いて実験を行うための化学ロボットをプログラミングするプロセスである。
大規模言語モデル(LLM)は、自然言語処理、ロボット制御、最近では化学など、様々な分野において顕著な能力を発揮している。
本稿では,合成文芸手順の自動検証を目的としたLCMベースの化学研究エージェントワークフローを提案する。
論文 参考訳(メタデータ) (2024-10-08T21:31:42Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - AIMS-EREA -- A framework for AI-accelerated Innovation of Materials for
Sustainability -- for Environmental Remediation and Energy Applications [0.0]
AIMS-EREAは、マテリアルサイエンス理論のベストをジェネレーティブAIのパワーと組み合わせる新しいフレームワークです。
これはまた、有害な残留物や反応の副産物の生成の可能性を排除するのに役立つ。
論文 参考訳(メタデータ) (2023-11-18T12:35:45Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Retro*: Learning Retrosynthetic Planning with Neural Guided A* Search [83.22850633478302]
反合成計画(retrosynthetic planning)は、ターゲット生成物の合成に繋がる一連の反応を特定する。
既存の手法では、高いばらつきを持つロールアウトによる高価なリターン推定が必要か、品質よりも探索速度を最適化する必要がある。
本稿では,高品質な合成経路を効率よく見つけるニューラルネットワークA*ライクなアルゴリズムRetro*を提案する。
論文 参考訳(メタデータ) (2020-06-29T05:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。