論文の概要: CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature
- arxiv url: http://arxiv.org/abs/2407.21708v1
- Date: Wed, 31 Jul 2024 15:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:41:37.588974
- Title: CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature
- Title(参考訳): CEAR:化学物質の知識グラフと科学文献からの役割の自動構築
- Authors: Stefan Langer, Fabian Neuhaus, Andreas Nürnberger,
- Abstract要約: 本稿では,ケビの知識で既存の注釈付きテキストコーパスを増補し,化学物質とその科学テキストにおける役割を認識するための大規模モデル(LLM)を微調整する手法を提案する。
LLMのオントロジ的知識理解能力を組み合わせることで、科学文献における化学物質と役割の両方を識別する高精度なリコール率が得られる。
- 参考スコア(独自算出の注目度): 4.086092284014203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ontologies are formal representations of knowledge in specific domains that provide a structured framework for organizing and understanding complex information. Creating ontologies, however, is a complex and time-consuming endeavor. ChEBI is a well-known ontology in the field of chemistry, which provides a comprehensive resource for defining chemical entities and their properties. However, it covers only a small fraction of the rapidly growing knowledge in chemistry and does not provide references to the scientific literature. To address this, we propose a methodology that involves augmenting existing annotated text corpora with knowledge from Chebi and fine-tuning a large language model (LLM) to recognize chemical entities and their roles in scientific text. Our experiments demonstrate the effectiveness of our approach. By combining ontological knowledge and the language understanding capabilities of LLMs, we achieve high precision and recall rates in identifying both the chemical entities and roles in scientific literature. Furthermore, we extract them from a set of 8,000 ChemRxiv articles, and apply a second LLM to create a knowledge graph (KG) of chemical entities and roles (CEAR), which provides complementary information to ChEBI, and can help to extend it.
- Abstract(参考訳): オントロジ(英: Ontology)は、複雑な情報を整理し理解するための構造化された枠組みを提供する特定の領域における知識の形式的表現である。
しかし、オントロジの作成は複雑で時間を要する作業である。
ChEBIは化学の分野でよく知られたオントロジーであり、化学物質とその性質を定義するための包括的な資源を提供する。
しかし、化学の急速に成長する知識のごく一部に過ぎず、科学文献に言及していない。
そこで本研究では,Chebiの知識を付加して既存の注釈テキストコーパスを拡大し,化学物質とその科学テキストにおける役割を認識するための大規模言語モデル(LLM)を微調整する手法を提案する。
我々の実験は我々のアプローチの有効性を実証している。
LLMのオントロジ的知識と言語理解能力を組み合わせることで、科学文献における化学物質と役割の識別において、高精度かつ高精度なリコール率を実現する。
さらに,ChemRxiv の8,000個の記事からそれらを抽出し,第2の LLM を用いてケミカルエンティティと役割の知識グラフ (KG) を作成し,ChEBI に補完的な情報を提供し,拡張に役立てる。
関連論文リスト
- Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Fine-Grained Chemical Entity Typing with Multimodal Knowledge
Representation [36.6963949360594]
核となる化学文献から化学反応に関する詳細な知識を抽出する方法は、新たな課題である。
本稿では, 微細な化学エンティティタイピングの問題を解決するために, マルチモーダル表現学習フレームワークを提案する。
実験の結果,提案手法は複数の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-29T19:41:35Z) - Extracting a Knowledge Base of Mechanisms from COVID-19 Papers [50.17242035034729]
我々はメカニズムの知識ベース(KB)の構築を追求する。
我々は、妥当性と幅のバランスをとる広範で統一されたスキーマを開発する。
実験は、新型コロナウイルスの文献に関する学際的な科学的検索を支援するためのKBの有用性を実証する。
論文 参考訳(メタデータ) (2020-10-08T07:54:14Z) - COVID-19 Literature Knowledge Graph Construction and Drug Repurposing
Report Generation [79.33545724934714]
我々は,学術文献から微細なマルチメディア知識要素を抽出する,新しい包括的知識発見フレームワークであるCOVID-KGを開発した。
我々のフレームワークはまた、証拠として詳細な文脈文、サブフィギュア、知識のサブグラフも提供します。
論文 参考訳(メタデータ) (2020-07-01T16:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。