論文の概要: Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database
- arxiv url: http://arxiv.org/abs/2603.15080v1
- Date: Mon, 16 Mar 2026 10:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.012878
- Title: Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database
- Title(参考訳): 大規模バイオメディカル知識グラフのオープン化 - Samyama Graph Databaseによる構築,フェデレーション,AIエージェントアクセス
- Authors: Madhulatha Mandarapu, Sandeep Kunkunuru,
- Abstract要約: オープンソースバイオメディカル知識グラフとして,パスKG(5ソースから118,686ノード,834,785エッジ)と臨床試験KG(7,774,446ノード,26,973,997エッジ)の2つを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical knowledge is fragmented across siloed databases -- Reactome for pathways, STRING for protein interactions, Gene Ontology for functional annotations, ClinicalTrials.gov for study registries, and dozens more. Researchers routinely download flat files from each source and write bespoke scripts to cross-reference them, a process that is slow, error-prone, and not reproducible. We present two open-source biomedical knowledge graphs -- Pathways KG (118,686 nodes, 834,785 edges from 5 sources) and Clinical Trials KG (7,774,446 nodes, 26,973,997 edges from 5 sources) -- built on Samyama, a high-performance graph database written in Rust. Our contributions are threefold. First, we describe a reproducible ETL pattern for constructing large-scale KGs from heterogeneous public data sources, with cross-source deduplication, batch Cypher loading, and portable snapshot export. Second, we demonstrate cross-KG federation: loading both snapshots into a single graph tenant enables property-based joins across datasets, answering questions like ``Which biological pathways are disrupted by drugs currently in Phase~3 trials for breast cancer?'' -- a query that neither KG can answer alone. Third, we introduce schema-driven MCP server generation: each KG automatically exposes typed tools for LLM agents via the Model Context Protocol, enabling natural-language access to graph queries without manual tool authoring. All data sources are open-license (CC~BY~4.0, CC0, OBO). Snapshots, ETL code, and MCP configurations are publicly available. The combined federated graph (7.89M nodes, 27.8M edges) loads in 76 seconds on commodity hardware (Mac Mini M4, 16GB RAM), and the signature cross-KG query -- ``which pathways are disrupted by drugs in Phase~3 breast cancer trials?'' -- returns validated results in 2.1 seconds.
- Abstract(参考訳): バイオメディカルな知識は、サイロ化されたデータベースで断片化されている -- 経路のためのReactome、タンパク質相互作用のためのSTRING、機能アノテーションのためのGene Ontology、レジストリを研究するためのCricerTrials.govなど。
研究者は、各ソースからフラットなファイルをダウンロードし、それらを相互参照するためにbespokeスクリプトを書く。
我々は、Rustで記述された高性能グラフデータベースであるSamyama上に構築された、2つのオープンソースのバイオメディカル知識グラフ、Pathways KG (5ソースから118,686ノード、834,785エッジ)とCitical Trials KG (5ソースから7,774,446ノード、26,973,997エッジ)を提示する。
私たちの貢献は3倍です。
まず、異種公開データソースから大規模なKGを構築するための再現可能なETLパターンについて述べる。
第二に、2つのスナップショットを1つのグラフテナントにロードすることで、データセット間のプロパティベースの結合が可能になる。
第3に、スキーマ駆動型MPPサーバ生成を導入する。各KGは、モデルコンテキストプロトコルを介して、LLMエージェントの型付きツールを自動的に公開し、手動のツールオーサリングなしでグラフクエリへの自然言語アクセスを可能にする。
すべてのデータソースはオープンライセンス(CC~BY~4.0、CC0、OBO)である。
スナップショット、ETLコード、MPP設定が公開されている。
組み合わせた連合グラフ(7.89Mノード、27.8Mエッジ)は、コモディティハードウェア(Mac Mini M4、16GB RAM)に76秒でロードされ、「第3相〜第3相の乳癌臨床試験でどの経路が薬物によって破壊されるか?」という署名のクロスKGクエリーが2.1秒で検証結果を返す。
関連論文リスト
- Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models [10.130178524819536]
知識グラフ(KGs)は、大規模言語モデル(LLMs)の構造化、検証可能な基盤を提供する
現在のLLMベースのシステムでは、KGをテキスト検索の補助構造として使用しており、本質的な品質は未探索のままである。
我々はオープンドメインテキストからKGを構成する多段階パイプラインであるWikonticを提案する。
論文 参考訳(メタデータ) (2025-11-29T18:44:25Z) - MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models [0.71747343065587]
知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
本稿では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を利用可能なドラッグリーフレットに適用して作成したキュレートデータセット,MEDakaについて述べる。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
論文 参考訳(メタデータ) (2025-09-30T11:47:04Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering [38.3732958942896]
BYOKG-RAGは知識グラフ質問応答を強化するフレームワークである。
LLM(Large Language Model)エージェントと特殊なグラフ検索ツールを組み合わせる。
異なるグラフツールからコンテキストを取得することで、BYOKG-RAGはカスタムKGよりもより汎用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-05T18:47:14Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - KG-Hub -- Building and Exchanging Biological Knowledge Graphs [0.5369297590461578]
KG-Hubは知識グラフの標準化された構築、交換、再利用を可能にするプラットフォームである。
現在のKG-Hubプロジェクトは、新型コロナウイルス研究、薬物再精製、微生物-環境相互作用、希少疾患研究などのユースケースにまたがっている。
論文 参考訳(メタデータ) (2023-01-31T21:29:35Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Toward Subgraph-Guided Knowledge Graph Question Generation with Graph
Neural Networks [53.58077686470096]
知識グラフ(KG)質問生成(QG)は,KGから自然言語質問を生成することを目的とする。
本研究は,KGサブグラフから質問を生成し,回答をターゲットとする,より現実的な環境に焦点を当てる。
論文 参考訳(メタデータ) (2020-04-13T15:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。