論文の概要: Natural Language Processing for Drug Discovery Knowledge Graphs:
promises and pitfalls
- arxiv url: http://arxiv.org/abs/2310.15572v1
- Date: Tue, 24 Oct 2023 07:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:10:19.681329
- Title: Natural Language Processing for Drug Discovery Knowledge Graphs:
promises and pitfalls
- Title(参考訳): 薬物発見知識グラフのための自然言語処理:約束と落とし穴
- Authors: J. Charles G. Jeynes, Tim James, Matthew Corney
- Abstract要約: 薬物発見を支援するための知識グラフ(KGs)の構築と分析は、研究の話題となっている。
我々は、自然言語処理(NLP)を用いて、構造化されていないテキストをKGのデータソースとしてマイニングすることの約束と落とし穴について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building and analysing knowledge graphs (KGs) to aid drug discovery is a
topical area of research. A salient feature of KGs is their ability to combine
many heterogeneous data sources in a format that facilitates discovering
connections. The utility of KGs has been exemplified in areas such as drug
repurposing, with insights made through manual exploration and modelling of the
data. In this article, we discuss promises and pitfalls of using natural
language processing (NLP) to mine unstructured text typically from scientific
literature as a data source for KGs. This draws on our experience of initially
parsing structured data sources such as ChEMBL as the basis for data within a
KG, and then enriching or expanding upon them using NLP. The fundamental
promise of NLP for KGs is the automated extraction of data from millions of
documents a task practically impossible to do via human curation alone.
However, there are many potential pitfalls in NLP-KG pipelines such as
incorrect named entity recognition and ontology linking all of which could
ultimately lead to erroneous inferences and conclusions.
- Abstract(参考訳): 薬物発見を助けるための知識グラフ(kgs)の構築と分析は、研究のトピックである。
KGsの健全な特徴は、コネクションの発見を容易にするフォーマットで、多くの異種データソースを組み合わせる能力である。
KGsの実用性は、薬物再資源化などの分野で実証されており、手動によるデータの探索とモデリングを通じて洞察されている。
本稿では、自然言語処理(nlp)を用いて、通常、科学文献からkgsのデータソースとして非構造化テキストをマイニングする約束と落とし穴について論じる。
これは、当初、KG内のデータの基盤としてChEMBLなどの構造化データソースを解析し、NLPを使用してそれらを強化または拡張した経験に基づいています。
KGsのNLPの基本的な約束は、人間のキュレーションだけでは事実上不可能なタスクとして、数百万のドキュメントからデータを自動的に抽出することである。
しかしながら、NLP-KGパイプラインには誤った名前のエンティティ認識やオントロジーなどの潜在的な落とし穴があり、最終的には誤った推論や結論につながる可能性がある。
関連論文リスト
- Ontology Population using LLMs [0.9894420655516563]
知識グラフ(KG)は、データ統合、表現、可視化にますます活用されている。
LLMはそのようなタスクに有望な機能を提供し、自然言語の理解とコンテンツ生成に優れています。
本研究では、Enslaved.org Hub Ontologyに着目し、KG集団に対するLLMの有効性について検討した。
論文 参考訳(メタデータ) (2024-11-03T15:39:20Z) - Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。
LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。
上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文 参考訳(メタデータ) (2024-06-19T21:45:20Z) - Relevant Entity Selection: Knowledge Graph Bootstrapping via Zero-Shot
Analogical Pruning [4.281723404774889]
そこで本研究では,KGのシードエンティティから始まり,その近傍のエンティティを保存・熟成するアナロジーに基づくアプローチを提案する。
ウィキデータに対する我々のアプローチは、ドメイン均質または異質なシードエンティティを含む2つの手動ラベル付きデータセットを通して評価する。
論文 参考訳(メタデータ) (2023-06-28T15:17:59Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - BertNet: Harvesting Knowledge Graphs with Arbitrary Relations from
Pretrained Language Models [65.51390418485207]
本稿では,事前学習したLMから任意の関係を持つ大規模KGを抽出する手法を提案する。
関係定義の最小限の入力により、アプローチは膨大な実体対空間を効率的に探索し、多様な正確な知識を抽出する。
我々は、異なるLMから400以上の新しい関係を持つKGを収穫するためのアプローチを展開している。
論文 参考訳(メタデータ) (2022-06-28T19:46:29Z) - WDV: A Broad Data Verbalisation Dataset Built from Wikidata [5.161088104035106]
言語知識グラフ(英語: Verbalising Knowledge Graph, KG)は、主語、述語、および対象からなる相互接続された三元的クレームをテキストに変換することに焦点を当てたデータである。
ウィキデータから構築された大規模なKGクレーム言語化データセットであるWDVを提案する。
また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。
論文 参考訳(メタデータ) (2022-05-05T13:10:12Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。