論文の概要: Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database
- arxiv url: http://arxiv.org/abs/2603.15080v2
- Date: Tue, 17 Mar 2026 12:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.960327
- Title: Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database
- Title(参考訳): 大規模バイオメディカル知識グラフのオープン化 - Samyama Graph Databaseによる構築,フェデレーション,AIエージェントアクセス
- Authors: Madhulatha Mandarapu, Sandeep Kunkunuru,
- Abstract要約: オープンソースのバイオメディカル知識グラフとして,パスKG(5ソースから118,686ノード,834,785エッジ),臨床試験KG(7,774,446ノード,26,973,997エッジ),薬物相互作用KG(32,726ノード,191,970エッジ)の3つを挙げる。
まず、異種公開データソースから大規模なKGを構築するための高性能グラフについて説明する。これは、クロスソース重複、バッチローディング(PythonとRustネイティブローダ)、ポータブルスナップショットエクスポートである。
次に、クロスKGフェデレーションを実演します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical knowledge is fragmented across siloed databases -- Reactome for pathways, STRING for protein interactions, ClinicalTrials.gov for study registries, DrugBank for drug vocabularies, DGIdb for drug-gene interactions, SIDER for side effects. We present three open-source biomedical knowledge graphs -- Pathways KG (118,686 nodes, 834,785 edges from 5 sources), Clinical Trials KG (7,774,446 nodes, 26,973,997 edges from 5 sources), and Drug Interactions KG (32,726 nodes, 191,970 edges from 3 sources) -- built on Samyama, a high-performance graph database written in Rust. Our contributions are threefold. First, we describe a reproducible ETL pattern for constructing large-scale KGs from heterogeneous public data sources, with cross-source deduplication, batch loading (Python Cypher and Rust native loaders), and portable snapshot export. Second, we demonstrate cross-KG federation: loading all three snapshots into a single graph tenant enables property-based joins across datasets. Third, we introduce schema-driven MCP server generation for LLM agent access, evaluated on a new BiomedQA benchmark (40 pharmacology questions): domain-specific MCP tools achieve 98% accuracy vs. 0% for text-to-Cypher and 75% for standalone GPT-4o. All data sources are open-license. The combined federated graph (7.9M nodes, 28M edges) loads in approximately 3 minutes on commodity cloud hardware, and cross-KG queries complete in 80ms-4s.
- Abstract(参考訳): バイオメディカルな知識は、サイロ化されたデータベースで断片化されている -- 経路のリアクトーム、タンパク質相互作用のSTRING、研究レジストリのCricerTrials.gov、薬物語彙のドラッグバンク、薬物-遺伝子相互作用のDGIdb、副作用のSIDER。
我々は、Rustで記述された高性能グラフデータベースであるSamyama上に構築された3つのオープンソースのバイオメディカル知識グラフ(Pathways KG、118,686ノード、834,785エッジ5ソース)、臨床トライアルKG(7,774,446ノード、26,973,997エッジ5ソース)、薬物相互作用KG(32,726ノード、3ソース191,970エッジ)を提示する。
私たちの貢献は3倍です。
まず、異種公開データソースから大規模なKGを構築するための再現可能なETLパターンについて、クロスソース重複、バッチローディング(Python CypherおよびRustネイティブローダ)、ポータブルスナップショットエクスポートを用いて説明する。
次に、3つのスナップショットを1つのグラフテナントにロードすることで、データセット間のプロパティベースの結合が可能になります。
第3に、LLMエージェントアクセスのためのスキーマ駆動型MPPサーバ生成を導入し、新しいBiomedQAベンチマーク(40の薬理学質問)で評価した。
すべてのデータソースはオープンライセンスである。
連合グラフ(7.9Mノード、28Mエッジ)は、コモディティクラウドハードウェア上で約3分でロードされ、80ms-4sで完結するクロスKGクエリである。
関連論文リスト
- Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models [10.130178524819536]
知識グラフ(KGs)は、大規模言語モデル(LLMs)の構造化、検証可能な基盤を提供する
現在のLLMベースのシステムでは、KGをテキスト検索の補助構造として使用しており、本質的な品質は未探索のままである。
我々はオープンドメインテキストからKGを構成する多段階パイプラインであるWikonticを提案する。
論文 参考訳(メタデータ) (2025-11-29T18:44:25Z) - MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models [0.71747343065587]
知識グラフ(KG)は、構造化され解釈可能なフォーマットの生体情報を表現するために、ますます使われるようになっている。
本稿では,(1)ウェブスクレイパーとLSMを用いて,構造化されていないオンラインコンテンツからKGを生成する,ハック可能なエンドツーエンドパイプライン,(2)この手法を利用可能なドラッグリーフレットに適用して作成したキュレートデータセット,MEDakaについて述べる。
このデータセットは、副作用、警告、禁忌、成分、服用ガイドライン、保管指示、身体的特徴などの臨床的に関連する属性をキャプチャする。
論文 参考訳(メタデータ) (2025-09-30T11:47:04Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering [38.3732958942896]
BYOKG-RAGは知識グラフ質問応答を強化するフレームワークである。
LLM(Large Language Model)エージェントと特殊なグラフ検索ツールを組み合わせる。
異なるグラフツールからコンテキストを取得することで、BYOKG-RAGはカスタムKGよりもより汎用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-05T18:47:14Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - KG-Hub -- Building and Exchanging Biological Knowledge Graphs [0.5369297590461578]
KG-Hubは知識グラフの標準化された構築、交換、再利用を可能にするプラットフォームである。
現在のKG-Hubプロジェクトは、新型コロナウイルス研究、薬物再精製、微生物-環境相互作用、希少疾患研究などのユースケースにまたがっている。
論文 参考訳(メタデータ) (2023-01-31T21:29:35Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Toward Subgraph-Guided Knowledge Graph Question Generation with Graph
Neural Networks [53.58077686470096]
知識グラフ(KG)質問生成(QG)は,KGから自然言語質問を生成することを目的とする。
本研究は,KGサブグラフから質問を生成し,回答をターゲットとする,より現実的な環境に焦点を当てる。
論文 参考訳(メタデータ) (2020-04-13T15:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。