論文の概要: A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications
- arxiv url: http://arxiv.org/abs/2410.06010v1
- Date: Tue, 8 Oct 2024 13:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:40:34.091179
- Title: A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications
- Title(参考訳): 知識グラフを用いたバイオインフォマティクスの問合せ-問合せ--方法論と応用
- Authors: Jerven Bolleman, Vincent Emonet, Adrian Altenhoff, Amos Bairoch, Marie-Claude Blatter, Alan Bridge, Severine Duvaud, Elisabeth Gasteiger, Dmitry Kuznetsov, Sebastien Moretti, Pierre-Andre Michel, Anne Morgat, Marco Pagni, Nicole Redaschi, Monique Zahn-Zabal, Tarcisio Mendes de Farias, Ana Claudia Sima,
- Abstract要約: 本稿では,生物情報学の知識グラフを用いた人文自然言語質問とそれに対応するSPARQLクエリについて紹介する。
既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0838491111002084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background. In the last decades, several life science resources have structured data using the same framework and made these accessible using the same query language to facilitate interoperability. Knowledge graphs have seen increased adoption in bioinformatics due to their advantages for representing data in a generic graph format. For example, yummydata.org catalogs more than 60 knowledge graphs accessible through SPARQL, a technical query language. Although SPARQL allows powerful, expressive queries, even across physically distributed knowledge graphs, formulating such queries is a challenge for most users. Therefore, to guide users in retrieving the relevant data, many of these resources provide representative examples. These examples can also be an important source of information for machine learning, if a sufficiently large number of examples are provided and published in a common, machine-readable and standardized format across different resources. Findings. We introduce a large collection of human-written natural language questions and their corresponding SPARQL queries over federated bioinformatics knowledge graphs (KGs) collected for several years across different research groups at the SIB Swiss Institute of Bioinformatics. The collection comprises more than 1000 example questions and queries, including 65 federated queries. We propose a methodology to uniformly represent the examples with minimal metadata, based on existing standards. Furthermore, we introduce an extensive set of open-source applications, including query graph visualizations and smart query editors, easily reusable by KG maintainers who adopt the proposed methodology. Conclusions. We encourage the community to adopt and extend the proposed methodology, towards richer KG metadata and improved Semantic Web services.
- Abstract(参考訳): 背景。
過去数十年間、いくつかのライフサイエンスリソースは、同じフレームワークを使用してデータを構造化し、相互運用性を促進するために、同じクエリ言語を使用してそれらにアクセスできるようにした。
知識グラフは、汎用グラフフォーマットでデータを表現する利点から、バイオインフォマティクスの採用が増加している。
例えば、Yummydata.orgは60以上の知識グラフを技術的クエリ言語であるSPARQLを通じてカタログ化している。
SPARQLは、物理的に分散した知識グラフでさえ、強力な表現力のあるクエリを可能にするが、そのようなクエリを定式化することは、ほとんどのユーザにとって課題である。
したがって、ユーザに対して関連データの検索を指導するため、これらのリソースの多くは代表的な例を提供する。
これらの例は、もし十分な数のサンプルが提供され、異なるリソースにわたって共通の、機械可読で標準化されたフォーマットで公開された場合、機械学習にとって重要な情報源となる。
発見。
SIBスイスバイオインフォマティクス研究所(SIB Swiss Institute of Bioinformatics)のさまざまな研究グループで数年間に渡り収集された、連合生物インフォマティクス知識グラフ(KG)上の、人間の記述する自然言語質問とそれに対応するSPARQLクエリについて紹介する。
コレクションには、65のフェデレーションクエリを含む1000以上のサンプル質問とクエリが含まれている。
既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。
さらに,提案手法を採用したKGメンテナが容易に再利用可能な,クエリグラフの可視化やスマートクエリエディタなど,幅広いオープンソースアプリケーションを紹介した。
結論。
我々はコミュニティに対して,提案手法の採用と拡張,KGメタデータの充実,セマンティックWebサービスの改善を奨励する。
関連論文リスト
- G-RAG: Knowledge Expansion in Material Science [0.0]
Graph RAGはグラフデータベースを統合して、検索プロセスを強化する。
文書のより詳細な表現を実現するために,エージェントベースの解析手法を実装した。
論文 参考訳(メタデータ) (2024-11-21T21:22:58Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - LLM-based SPARQL Query Generation from Natural Language over Federated Knowledge Graphs [0.0]
バイオインフォマティクス知識グラフ(KGs)上でユーザ質問を正確なSPARQLクエリに変換するための検索型拡張生成(RAG)システムを提案する。
クエリ生成における精度の向上と幻覚の低減を目的として,クエリ例やスキーマ情報を含むメタデータをKGから活用し,生成したクエリの修正に検証ステップを組み込んだ。
このシステムは chat.expasy.org で公開されている。
論文 参考訳(メタデータ) (2024-10-08T14:09:12Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM [35.208135795371795]
材料科学における知識グラフ質問回答のためのベンチマークデータセット(KGQA4MAT)を提案する。
構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。
我々は、比較、集約、複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。
論文 参考訳(メタデータ) (2023-09-20T14:43:43Z) - ALIST: Associative Logic for Inference, Storage and Transfer. A Lingua
Franca for Inference on the Web [0.0]
知識グラフの特定のクエリ言語からクエリの表現を抽象化する形式主義。
多様な知識ソース上でデータと関数(操作)を動的にキュレートする表現。
表現形式主義の多様性を表現するためのアリストの表現力の実証。
論文 参考訳(メタデータ) (2023-03-12T15:55:56Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。