論文の概要: BioGraphletQA: Knowledge-Anchored Generation of Complex QA Datasets
- arxiv url: http://arxiv.org/abs/2604.26048v1
- Date: Tue, 28 Apr 2026 18:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.14402
- Title: BioGraphletQA: Knowledge-Anchored Generation of Complex QA Datasets
- Title(参考訳): BioGraphletQA: 複雑なQAデータセットの知識アンコール生成
- Authors: Richard A. A. Jonker, Bárbara Maria Ribeiro de Abreu Martins, Sérgio Matos,
- Abstract要約: 本稿では,QA(complex Question Answering)データを生成するための原則的フレームワークを提案する。
このフレームワークの中核は、構造化されたプロンプトで知識グラフ(KG)からの小さなサブグラフが使用されるグラフレットアンコール生成プロセスである。
このフレームワークの最初のインスタンス化はBioGraphletQAで、119,856のQAペアからなる新しいバイオメディカルなKGQAデータセットである。
- 参考スコア(独自算出の注目度): 0.3058685580689604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a principled and scalable framework for systematically generating complex Question Answering (QA) data. In the core of this framework is a graphlet-anchored generation process, where small subgraphs from a Knowledge Graph (KG) are used in a structured prompt to control the complexity and ensure the factual grounding of questions generated by Large Language Models. The first instantiation of this framework is BioGraphletQA, a new biomedical KGQA dataset of 119,856 QA pairs. Each entry is grounded in a graphlet of up to five nodes from the OREGANO KG, with most of the pairs being enriched with relevant document snippets from PubMed. We start by demonstrating the framework's value and the dataset's quality through evaluation by a domain expert on 106 QA pairs, confirming the high scientific validity and complexity of the generated data. Secondly, we establish its practical utility by showing that augmenting downstream benchmarks with our data improves accuracy on PubMedQA from 49.2% to 68.5% in a low-resource setting, and on MedQA from a 41.4% baseline to 44.8% in a full-resource setting. Our framework provides a robust and generalizable solution for creating critical resources to advance complex QA tasks, including MCQA and KGQA. All resources supporting this work, including the dataset (https://zenodo.org/records/17381119) and framework code (https://github.com/ieeta-pt/BioGraphletQA), are publicly available to facilitate use, reproducibility and extension.
- Abstract(参考訳): 本稿では,複雑な質問応答(QA)データを体系的に生成する,原則的かつスケーラブルなフレームワークを提案する。
このフレームワークのコアとなるのは、知識グラフ(KG)からの小さなサブグラフを構造化プロンプトで使用して、複雑さを制御し、大規模言語モデルによって生成された質問の事実的根拠を確保する、グラフレットアンコール生成プロセスである。
このフレームワークの最初のインスタンス化はBioGraphletQAで、119,856のQAペアからなる新しいバイオメディカルなKGQAデータセットである。
各エントリは、OREGANO KGから最大5ノードのグラフレットに格納されており、ほとんどのペアはPubMedの関連ドキュメントスニペットで濃縮されている。
まず、フレームワークの価値とデータセットの品質を、106のQAペアのドメインエキスパートによる評価によって実証し、生成されたデータの科学的妥当性と複雑さを確認することから始めます。
次に,低リソース環境でのPubMedQAの49.2%から68.5%,フルリソース環境でのMedQAの41.4%から44.8%の精度向上を示す。
我々のフレームワークは、MCQAやKGQAを含む複雑なQAタスクを前進させるために重要なリソースを作成するための堅牢で一般化可能なソリューションを提供する。
データセット(https://zenodo.org/records/17381119)やフレームワークコード(https://github.com/ieeta-pt/BioGraphletQA)など、この作業をサポートするすべてのリソースが、使用、再現性、拡張を容易にするために公開されている。
関連論文リスト
- Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database [0.0]
オープンソースバイオメディカル知識グラフとして,パスKG,臨床トライアルKG,薬物相互作用KGの3つを提示する。
まず、異種公開データソースから大規模KGを構築するための高性能グラフについて述べる。
次に、3つのスナップショットを1つのグラフテナントにロードすることで、プロパティベースの結合が可能になる。
論文 参考訳(メタデータ) (2026-03-16T10:36:13Z) - KG20C & KG20C-QA: Scholarly Knowledge Graph Benchmarks for Link Prediction and Question Answering [3.8315541579168353]
KG20CはMicrosoft Academic Graphから構築された高品質な学術知識グラフである。
KG20C-QAは、学術データに対するQAタスクをサポートするためにKG20C上に構築されている。
論文 参考訳(メタデータ) (2025-12-25T22:29:54Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM [35.208135795371795]
材料科学における知識グラフ質問回答のためのベンチマークデータセット(KGQA4MAT)を提案する。
構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。
我々は、比較、集約、複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。
論文 参考訳(メタデータ) (2023-09-20T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。