論文の概要: CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature
- arxiv url: http://arxiv.org/abs/2407.21708v1
- Date: Wed, 31 Jul 2024 15:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:41:37.588974
- Title: CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature
- Title(参考訳): CEAR:化学物質の知識グラフと科学文献からの役割の自動構築
- Authors: Stefan Langer, Fabian Neuhaus, Andreas Nürnberger,
- Abstract要約: 本稿では,ケビの知識で既存の注釈付きテキストコーパスを増補し,化学物質とその科学テキストにおける役割を認識するための大規模モデル(LLM)を微調整する手法を提案する。
LLMのオントロジ的知識理解能力を組み合わせることで、科学文献における化学物質と役割の両方を識別する高精度なリコール率が得られる。
- 参考スコア(独自算出の注目度): 4.086092284014203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ontologies are formal representations of knowledge in specific domains that provide a structured framework for organizing and understanding complex information. Creating ontologies, however, is a complex and time-consuming endeavor. ChEBI is a well-known ontology in the field of chemistry, which provides a comprehensive resource for defining chemical entities and their properties. However, it covers only a small fraction of the rapidly growing knowledge in chemistry and does not provide references to the scientific literature. To address this, we propose a methodology that involves augmenting existing annotated text corpora with knowledge from Chebi and fine-tuning a large language model (LLM) to recognize chemical entities and their roles in scientific text. Our experiments demonstrate the effectiveness of our approach. By combining ontological knowledge and the language understanding capabilities of LLMs, we achieve high precision and recall rates in identifying both the chemical entities and roles in scientific literature. Furthermore, we extract them from a set of 8,000 ChemRxiv articles, and apply a second LLM to create a knowledge graph (KG) of chemical entities and roles (CEAR), which provides complementary information to ChEBI, and can help to extend it.
- Abstract(参考訳): オントロジ(英: Ontology)は、複雑な情報を整理し理解するための構造化された枠組みを提供する特定の領域における知識の形式的表現である。
しかし、オントロジの作成は複雑で時間を要する作業である。
ChEBIは化学の分野でよく知られたオントロジーであり、化学物質とその性質を定義するための包括的な資源を提供する。
しかし、化学の急速に成長する知識のごく一部に過ぎず、科学文献に言及していない。
そこで本研究では,Chebiの知識を付加して既存の注釈テキストコーパスを拡大し,化学物質とその科学テキストにおける役割を認識するための大規模言語モデル(LLM)を微調整する手法を提案する。
我々の実験は我々のアプローチの有効性を実証している。
LLMのオントロジ的知識と言語理解能力を組み合わせることで、科学文献における化学物質と役割の識別において、高精度かつ高精度なリコール率を実現する。
さらに,ChemRxiv の8,000個の記事からそれらを抽出し,第2の LLM を用いてケミカルエンティティと役割の知識グラフ (KG) を作成し,ChEBI に補完的な情報を提供し,拡張に役立てる。
関連論文リスト
- MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.78185449646608]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - COVID-19 Literature Knowledge Graph Construction and Drug Repurposing
Report Generation [79.33545724934714]
我々は,学術文献から微細なマルチメディア知識要素を抽出する,新しい包括的知識発見フレームワークであるCOVID-KGを開発した。
我々のフレームワークはまた、証拠として詳細な文脈文、サブフィギュア、知識のサブグラフも提供します。
論文 参考訳(メタデータ) (2020-07-01T16:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。