論文の概要: Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph
Question Answering Systems
- arxiv url: http://arxiv.org/abs/2309.16248v2
- Date: Fri, 8 Dec 2023 08:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:30:36.964402
- Title: Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph
Question Answering Systems
- Title(参考訳): Spider4SPARQL:知識グラフ質問回答システム評価のための複雑なベンチマーク
- Authors: Catherine Kosten, Philippe Cudr\'e-Mauroux, Kurt Stockinger
- Abstract要約: 知識グラフ質問回答システムを評価するために、現実的なベンチマークを提供することがますます重要になっている。
Spider4SPARQLは、9,693の既存のNL質問と4,721のユニークな、新しい、複雑なSPARQLクエリを備えた、新しいSPARQLベンチマークデータセットである。
現状のKGQAシステムとLLMを用いてシステム評価を行い,実行精度は45%に過ぎなかった。
- 参考スコア(独自算出の注目度): 1.4732811715354452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent spike in the number and availability of Large Language Models
(LLMs), it has become increasingly important to provide large and realistic
benchmarks for evaluating Knowledge Graph Question Answering (KGQA) systems. So
far the majority of benchmarks rely on pattern-based SPARQL query generation
approaches. The subsequent natural language (NL) question generation is
conducted through crowdsourcing or other automated methods, such as rule-based
paraphrasing or NL question templates. Although some of these datasets are of
considerable size, their pitfall lies in their pattern-based generation
approaches, which do not always generalize well to the vague and linguistically
diverse questions asked by humans in real-world contexts. In this paper, we
introduce Spider4SPARQL - a new SPARQL benchmark dataset featuring 9,693
previously existing manually generated NL questions and 4,721 unique, novel,
and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL
pairs, we also provide their corresponding 166 knowledge graphs and ontologies,
which cover 138 different domains. Our complex benchmark enables novel ways of
evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the
system with state-of-the-art KGQA systems as well as LLMs, which achieve only
up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a
challenging benchmark for future research.
- Abstract(参考訳): 近年,Large Language Models(LLMs)の数が急増し,知識グラフ質問回答システム(KGQA)を評価するために,大規模かつ現実的なベンチマークを提供することがますます重要になっている。
これまでのベンチマークのほとんどは、パターンベースのSPARQLクエリ生成アプローチに依存しています。
その後の自然言語(NL)質問生成は、クラウドソーシングやルールベースのパラフレーズやNL質問テンプレートなどの自動化手法によって行われる。
これらのデータセットの中にはかなりの大きさのものもあるが、その落とし穴はパターンベースの世代アプローチにある。
本稿では,従来の9,693件のNL質問と4,721件のユニークな,斬新で複雑なSPARQLクエリを備えた,新しいSPARQLベンチマークデータセットであるSpider4SPARQLを紹介する。
nl/sparqlペアに加えて、対応する166のナレッジグラフと138の異なるドメインをカバーするオントロジーも提供しています。
我々の複雑なベンチマークは、現代のKGQAシステムの強みと弱みを評価する新しい方法を可能にする。
我々は,最先端の kgqa システムと llms を用いてシステム評価を行い,最大 45 % の実行精度を達成し,spider4sparql が今後の研究にとって困難なベンチマークであることを示す。
関連論文リスト
- RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions [6.933892616704001]
本稿では,Wikidata の "Request a Query" フォーラムでの議論から収集した KBQA データセットである SPINACH データセットを紹介する。
これらの内部クエリの複雑さはKBQAシステムと呼ばれるもので、大きく、しばしば不完全なスキーマを動的に探索し、それらについて推論することができる。
また、人間の専門家が難解な問題に対処するためにどのようにSPARQLを書くかを模倣する、SPINACHとも呼ばれる、コンテキスト内学習KBQAエージェントも導入しています。
論文 参考訳(メタデータ) (2024-07-16T06:18:21Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Leveraging LLMs in Scholarly Knowledge Graph Question Answering [7.951847862547378]
KGQAは大きな言語モデル(LLM)を活用することで自然言語の質問に答える
SciQAのF1スコアは,Scholarly Knowledge Graph Question Answering Challengeベンチマークの1つである99.0%である。
論文 参考訳(メタデータ) (2023-11-16T12:13:49Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - AutoQGS: Auto-Prompt for Low-Resource Knowledge-based Question
Generation from SPARQL [18.019353543946913]
本研究では,知識に基づく質問生成(KBQG)の課題について検討する。
従来のKBQGは知識グラフのファクトトリプルから質問を生成するが、これはSPARQLの集約や比較のような複雑な操作を表現できない。
本研究では,SPARQLをNL記述に書き換えるために,大規模教師なしデータに基づいて訓練された自動プロンプタを提案する。
論文 参考訳(メタデータ) (2022-08-26T06:53:46Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - Exploring Sequence-to-Sequence Models for SPARQL Pattern Composition [0.5639451539396457]
構造化され、構造化されていないデータとして、インターネットに爆発的な情報が追加され、DBpediaやWikidataのような知識ベースが供給される。
質問回答システムの目的は、正規のクエリを書くことなく、自然言語でそのようなデータにアクセスできるようにすることである。
我々は、長い発話を複雑なSPARQLクエリに変換するための、シーケンス・ツー・シーケンス・モデルが実現可能で有望な選択肢であることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:12:01Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。