論文の概要: MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26128v1
- Date: Tue, 30 Sep 2025 11:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.120741
- Title: MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
- Title(参考訳): MEDaka:大規模言語モデルを用いたバイオメディカル知識グラフの構築
- Authors: Asmita Sengupta, David Antony Selby, Sebastian Josef Vollmer, Gerrit Großmann,
- Abstract要約: 知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
本稿では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を利用可能なドラッグリーフレットに適用して作成したキュレートデータセット,MEDakaについて述べる。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
- 参考スコア(独自算出の注目度): 0.71747343065587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graphs (KGs) are increasingly used to represent biomedical information in structured, interpretable formats. However, existing biomedical KGs often focus narrowly on molecular interactions or adverse events, overlooking the rich data found in drug leaflets. In this work, we present (1) a hackable, end-to-end pipeline to create KGs from unstructured online content using a web scraper and an LLM; and (2) a curated dataset, MEDAKA, generated by applying this method to publicly available drug leaflets. The dataset captures clinically relevant attributes such as side effects, warnings, contraindications, ingredients, dosage guidelines, storage instructions and physical characteristics. We evaluate it through manual inspection and with an LLM-as-a-Judge framework, and compare its coverage with existing biomedical KGs and databases. We expect MEDAKA to support tasks such as patient safety monitoring and drug recommendation. The pipeline can also be used for constructing KGs from unstructured texts in other domains. Code and dataset are available at https://github.com/medakakg/medaka.
- Abstract(参考訳): 知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
しかし、既存の生物医学的なKGは、しばしば分子間相互作用や有害事象に焦点を絞って、薬物のリーフレットに見られる豊富なデータを見渡す。
本研究では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を一般公開されたドラッグリーフレットに適用したキュレートデータセットMEDakaを提案する。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
手動検査とLCM-as-a-Judgeフレームワークを用いて評価し,既存のバイオメディカルKGやデータベースと比較した。
我々は,MEDakaが患者の安全モニタリングや薬物推奨などのタスクをサポートすることを期待している。
パイプラインは、他のドメインの構造化されていないテキストからKGを構築するためにも使用できる。
コードとデータセットはhttps://github.com/medakakg/medakaで入手できる。
関連論文リスト
- SIDEKICK: A Semantically Integrated Resource for Drug Effects, Indications, and Contraindications [11.439066289590878]
Sidekick(サイドキック)は、FDA構造化製品ラベルからの薬物の表示、禁忌、および副作用を標準化する知識グラフである。
我々は5万以上の薬物ラベルを処理し、Human Phenotype Ontology(HPO)、MONDO Disease Ontology、RxNormにマッピングした。
Sidekickは、薬物再資源化のための安全に基づく自動類似性分析を可能にする。
論文 参考訳(メタデータ) (2025-12-06T17:35:07Z) - DART: A Structured Dataset of Regulatory Drug Documents in Italian for Clinical NLP [10.905164788230913]
DARTは、イタリア医薬品庁(AIFA)の製品特性に関するイタリアの要約の構造化コーパスである。
これは、指標、副作用反応、薬物と薬物の相互作用などの重要な薬理学領域に関する構造化情報を提供する。
臨床的に有意な相互作用を推測するために,このデータセットを利用したLSMベースの薬物相互作用チェッカーを実装した。
論文 参考訳(メタデータ) (2025-10-21T09:53:17Z) - BALI: Enhancing Biomedical Language Representations through Knowledge Graph and Language Model Alignment [12.413588969346627]
BALI(Biomedical Knowledge Graph and Language Model Alignment)は、新しい共同学習手法である。
これは、専用のKGエンコーダの同時学習と、LMとグラフの両方の表現の整合によって、外部知識でLMを増強する。
実験の結果,PubMedBERT や BioLinkBERT などの先進的なバイオメディカル LM に本手法を適用することにより,言語理解タスクにおける性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-09-09T10:59:47Z) - MedKGent: A Large Language Model Agent Framework for Constructing Temporally Evolving Medical Knowledge Graph [57.54231831309079]
我々は、時間的に進化する医療知識グラフを構築するためのフレームワークであるMedKGentを紹介する。
生医学的知識の出現を, 微粒な日々の時系列でシミュレートする。
結果として得られるKGは156,275個のエンティティと2,971,384個のリレーショナルトリプルを含む。
論文 参考訳(メタデータ) (2025-08-17T15:14:03Z) - medicX-KG: A Knowledge Graph for Pharmacists' Drug Information Needs [0.0]
人工知能とセマンティックテクノロジーを活用して、知識グラフ(KG)は隠れた関係を発見し、データ駆動による意思決定を可能にする。
本稿では,臨床および規制決定を支援する薬剤師指向の知識グラフである medicX-KG を提案する。
より広範な medicX プラットフォームのセマンティックレイヤを形成し、予測的かつ説明可能な薬局サービスを動かしている。
論文 参考訳(メタデータ) (2025-06-22T09:28:48Z) - Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs [2.006175707670159]
PrimeKG++はマルチモーダルデータを組み込んだ豊富な知識グラフである。
提案手法は強い一般化可能性を示し,未知のノードに対しても正確なリンク予測を可能にする。
論文 参考訳(メタデータ) (2025-01-03T05:29:12Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises [59.4999994297993]
この総合的なレビューは、医療知識グラフ(HKG)の現状の概要を提供することを目的としている。
我々は,既存のHKGに関する文献を網羅的に分析し,その構築方法,活用技術,応用について考察した。
このレビューは、HKGsが生物医学研究や臨床実践に大きな影響を与える可能性を強調している。
論文 参考訳(メタデータ) (2023-06-07T21:51:56Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - SumGNN: Multi-typed Drug Interaction Prediction via Efficient Knowledge
Graph Summarization [64.56399911605286]
本稿では,サブグラフ抽出モジュールによって実現された知識要約グラフニューラルネットワークSumGNNを提案する。
SumGNNは5.54%まで最高のベースラインを上回り、データ関係の低いタイプでは特にパフォーマンスの向上が顕著である。
論文 参考訳(メタデータ) (2020-10-04T00:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。