論文の概要: MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26128v1
- Date: Tue, 30 Sep 2025 11:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.120741
- Title: MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
- Title(参考訳): MEDaka:大規模言語モデルを用いたバイオメディカル知識グラフの構築
- Authors: Asmita Sengupta, David Antony Selby, Sebastian Josef Vollmer, Gerrit Großmann,
- Abstract要約: 知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
本稿では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を利用可能なドラッグリーフレットに適用して作成したキュレートデータセット,MEDakaについて述べる。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
- 参考スコア(独自算出の注目度): 0.71747343065587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graphs (KGs) are increasingly used to represent biomedical information in structured, interpretable formats. However, existing biomedical KGs often focus narrowly on molecular interactions or adverse events, overlooking the rich data found in drug leaflets. In this work, we present (1) a hackable, end-to-end pipeline to create KGs from unstructured online content using a web scraper and an LLM; and (2) a curated dataset, MEDAKA, generated by applying this method to publicly available drug leaflets. The dataset captures clinically relevant attributes such as side effects, warnings, contraindications, ingredients, dosage guidelines, storage instructions and physical characteristics. We evaluate it through manual inspection and with an LLM-as-a-Judge framework, and compare its coverage with existing biomedical KGs and databases. We expect MEDAKA to support tasks such as patient safety monitoring and drug recommendation. The pipeline can also be used for constructing KGs from unstructured texts in other domains. Code and dataset are available at https://github.com/medakakg/medaka.
- Abstract(参考訳): 知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
しかし、既存の生物医学的なKGは、しばしば分子間相互作用や有害事象に焦点を絞って、薬物のリーフレットに見られる豊富なデータを見渡す。
本研究では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を一般公開されたドラッグリーフレットに適用したキュレートデータセットMEDakaを提案する。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
手動検査とLCM-as-a-Judgeフレームワークを用いて評価し,既存のバイオメディカルKGやデータベースと比較した。
我々は,MEDakaが患者の安全モニタリングや薬物推奨などのタスクをサポートすることを期待している。
パイプラインは、他のドメインの構造化されていないテキストからKGを構築するためにも使用できる。
コードとデータセットはhttps://github.com/medakakg/medakaで入手できる。
関連論文リスト
- BALI: Enhancing Biomedical Language Representations through Knowledge Graph and Language Model Alignment [12.413588969346627]
BALI(Biomedical Knowledge Graph and Language Model Alignment)は、新しい共同学習手法である。
これは、専用のKGエンコーダの同時学習と、LMとグラフの両方の表現の整合によって、外部知識でLMを増強する。
実験の結果,PubMedBERT や BioLinkBERT などの先進的なバイオメディカル LM に本手法を適用することにより,言語理解タスクにおける性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-09-09T10:59:47Z) - medicX-KG: A Knowledge Graph for Pharmacists' Drug Information Needs [0.0]
人工知能とセマンティックテクノロジーを活用して、知識グラフ(KG)は隠れた関係を発見し、データ駆動による意思決定を可能にする。
本稿では,臨床および規制決定を支援する薬剤師指向の知識グラフである medicX-KG を提案する。
より広範な medicX プラットフォームのセマンティックレイヤを形成し、予測的かつ説明可能な薬局サービスを動かしている。
論文 参考訳(メタデータ) (2025-06-22T09:28:48Z) - Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs [2.006175707670159]
PrimeKG++はマルチモーダルデータを組み込んだ豊富な知識グラフである。
提案手法は強い一般化可能性を示し,未知のノードに対しても正確なリンク予測を可能にする。
論文 参考訳(メタデータ) (2025-01-03T05:29:12Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises [59.4999994297993]
この総合的なレビューは、医療知識グラフ(HKG)の現状の概要を提供することを目的としている。
我々は,既存のHKGに関する文献を網羅的に分析し,その構築方法,活用技術,応用について考察した。
このレビューは、HKGsが生物医学研究や臨床実践に大きな影響を与える可能性を強調している。
論文 参考訳(メタデータ) (2023-06-07T21:51:56Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。