論文の概要: A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications
- arxiv url: http://arxiv.org/abs/2410.06010v1
- Date: Tue, 08 Oct 2024 13:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:25:52.551229
- Title: A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications
- Title(参考訳): 知識グラフを用いたバイオインフォマティクスの問合せ-問合せ--方法論と応用
- Authors: Jerven Bolleman, Vincent Emonet, Adrian Altenhoff, Amos Bairoch, Marie-Claude Blatter, Alan Bridge, Severine Duvaud, Elisabeth Gasteiger, Dmitry Kuznetsov, Sebastien Moretti, Pierre-Andre Michel, Anne Morgat, Marco Pagni, Nicole Redaschi, Monique Zahn-Zabal, Tarcisio Mendes de Farias, Ana Claudia Sima,
- Abstract要約: 本稿では,生物情報学の知識グラフを用いた人文自然言語質問とそれに対応するSPARQLクエリについて紹介する。
既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0838491111002084
- License:
- Abstract: Background. In the last decades, several life science resources have structured data using the same framework and made these accessible using the same query language to facilitate interoperability. Knowledge graphs have seen increased adoption in bioinformatics due to their advantages for representing data in a generic graph format. For example, yummydata.org catalogs more than 60 knowledge graphs accessible through SPARQL, a technical query language. Although SPARQL allows powerful, expressive queries, even across physically distributed knowledge graphs, formulating such queries is a challenge for most users. Therefore, to guide users in retrieving the relevant data, many of these resources provide representative examples. These examples can also be an important source of information for machine learning, if a sufficiently large number of examples are provided and published in a common, machine-readable and standardized format across different resources. Findings. We introduce a large collection of human-written natural language questions and their corresponding SPARQL queries over federated bioinformatics knowledge graphs (KGs) collected for several years across different research groups at the SIB Swiss Institute of Bioinformatics. The collection comprises more than 1000 example questions and queries, including 65 federated queries. We propose a methodology to uniformly represent the examples with minimal metadata, based on existing standards. Furthermore, we introduce an extensive set of open-source applications, including query graph visualizations and smart query editors, easily reusable by KG maintainers who adopt the proposed methodology. Conclusions. We encourage the community to adopt and extend the proposed methodology, towards richer KG metadata and improved Semantic Web services.
- Abstract(参考訳): 背景。
過去数十年間、いくつかのライフサイエンスリソースは、同じフレームワークを使用してデータを構造化し、相互運用性を促進するために、同じクエリ言語を使用してそれらにアクセスできるようにした。
知識グラフは、汎用グラフフォーマットでデータを表現する利点から、バイオインフォマティクスの採用が増加している。
例えば、Yummydata.orgは60以上の知識グラフを技術的クエリ言語であるSPARQLを通じてカタログ化している。
SPARQLは、物理的に分散した知識グラフでさえ、強力な表現力のあるクエリを可能にするが、そのようなクエリを定式化することは、ほとんどのユーザにとって課題である。
したがって、ユーザに対して関連データの検索を指導するため、これらのリソースの多くは代表的な例を提供する。
これらの例は、もし十分な数のサンプルが提供され、異なるリソースにわたって共通の、機械可読で標準化されたフォーマットで公開された場合、機械学習にとって重要な情報源となる。
発見。
SIBスイスバイオインフォマティクス研究所(SIB Swiss Institute of Bioinformatics)のさまざまな研究グループで数年間に渡り収集された、連合生物インフォマティクス知識グラフ(KG)上の、人間の記述する自然言語質問とそれに対応するSPARQLクエリについて紹介する。
コレクションには、65のフェデレーションクエリを含む1000以上のサンプル質問とクエリが含まれている。
既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。
さらに,提案手法を採用したKGメンテナが容易に再利用可能な,クエリグラフの可視化やスマートクエリエディタなど,幅広いオープンソースアプリケーションを紹介した。
結論。
我々はコミュニティに対して,提案手法の採用と拡張,KGメタデータの充実,セマンティックWebサービスの改善を奨励する。
関連論文リスト
- Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM [35.208135795371795]
材料科学における知識グラフ質問回答のためのベンチマークデータセット(KGQA4MAT)を提案する。
構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。
我々は、比較、集約、複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。
論文 参考訳(メタデータ) (2023-09-20T14:43:43Z) - ALIST: Associative Logic for Inference, Storage and Transfer. A Lingua
Franca for Inference on the Web [0.0]
知識グラフの特定のクエリ言語からクエリの表現を抽象化する形式主義。
多様な知識ソース上でデータと関数(操作)を動的にキュレートする表現。
表現形式主義の多様性を表現するためのアリストの表現力の実証。
論文 参考訳(メタデータ) (2023-03-12T15:55:56Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。