論文の概要: Spider4SSC & S2CLite: A text-to-multi-query-language dataset using lightweight ontology-agnostic SPARQL to Cypher parser
- arxiv url: http://arxiv.org/abs/2511.09354v1
- Date: Thu, 13 Nov 2025 01:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.534032
- Title: Spider4SSC & S2CLite: A text-to-multi-query-language dataset using lightweight ontology-agnostic SPARQL to Cypher parser
- Title(参考訳): Spider4SSC & S2CLite: 軽量オントロジーに依存しないSPARQLをCypherパーサに使用したテキストからマルチクエリ言語データセット
- Authors: Martin Vejvar, Yasutaka Fujimoto,
- Abstract要約: 我々はSpider4SSCおよびS2CLite解析ツールを提案する。
S2CLiteは軽量でオントロジーに依存しないもので、SPARQLクエリをCypherクエリに変換する。
我々はS2CLiteを使ってSpider4QLクエリをCypherにパースし、統一されたText-to-Query言語であるSpider4SSCを生成する。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Spider4SSC dataset and S2CLite parsing tool. S2CLite is a lightweight, ontology-agnostic parser that translates SPARQL queries into Cypher queries, enabling both in-situ and large-scale SPARQL to Cypher translation. Unlike existing solutions, S2CLite is purely rule-based (inspired by traditional programming language compilers) and operates without requiring an RDF graph or external tools. Experiments conducted on the BSBM42 and Spider4SPARQL datasets show that S2CLite significantly reduces query parsing errors, achieving a total parsing accuracy of 77.8% on Spider4SPARQL compared to 44.2% by the state-of-the-art S2CTrans. Furthermore, S2CLite achieved a 96.6\% execution accuracy on the intersecting subset of queries parsed by both parsers, outperforming S2CTrans by 7.3%. We further use S2CLite to parse Spider4SPARQL queries to Cypher and generate Spider4SSC, a unified Text-to-Query language (SQL, SPARQL, Cypher) dataset with 4525 unique questions and 3 equivalent sets of 2581 matching queries (SQL, SPARQL and Cypher). We open-source S2CLite for further development on GitHub (github.com/vejvarm/S2CLite) and provide the clean Spider4SSC dataset for download.
- Abstract(参考訳): 我々は,Spider4SSCデータセットとS2CLite解析ツールを提案する。
S2CLiteは軽量でオントロジーに依存しないパーサで、SPARQLクエリをCypherクエリに変換する。
既存のソリューションとは異なり、S2CLiteはルールベース(従来のプログラミング言語コンパイラにインスパイアされた)であり、RDFグラフや外部ツールを必要としない。
BSBM42とSpider4SPARQLデータセットで実施された実験によると、S2CLiteはクエリ解析エラーを著しく低減し、Spider4SPARQLの総解析精度は77.8%、最先端のS2CTransは44.2%である。
さらに、S2CLiteは、両方のパーサーによって解析されたクエリのインターセプトサブセットに対して96.6\%の実行精度を達成し、S2CTransを7.3%上回った。
さらに、S2CLiteを使用してSpider4SPARQLクエリをCypherに解析し、4525のユニークな質問と2581のマッチングクエリ(SQL、SPARQL、Cypher)の3つの等価セットを備えた統合テキストクエリ言語(SQL、SPARQL、Cypher)であるSpider4SSCを生成する。
GitHub(github.com/vejvarm/S2CLite)でさらなる開発を行うため、S2CLiteをオープンソースとして公開しています。
関連論文リスト
- Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text [3.4688186440441893]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
逆のプロセスは、コードを自然言語に翻訳し、セマンティックキャプションと呼ばれるが、あまり注目されていない。
本稿では,クエリの理解と説明に関する重要なニーズに対処するため,2Textのキャプションに着目した。
論文 参考訳(メタデータ) (2025-01-06T17:36:09Z) - Auto-Cypher: Improving LLMs on Cypher generation via LLM-supervised generation-verification framework [4.080333216826685]
我々は,Text2Cypherの高品質な合成データを生成するための,自動LLMスーパービジョンパイプラインを提案する。
私たちのCypherデータ生成パイプラインは、Cypherクエリの正確性を保証するための新しい戦略であるLLM-As-Database-Fillerを導入しています。
パイプラインを使用して、高品質なText2Cypherデータを生成します。SynthCypherには、さまざまなドメインにわたる29.8kインスタンスと、さまざまな複雑さを持つクエリが含まれています。
論文 参考訳(メタデータ) (2024-12-17T07:21:25Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Increasing the LLM Accuracy for Question Answering: Ontologies to the Rescue! [1.0786522863027366]
本稿では,1)オントロジーに基づくクエリチェック (OBQC) と2) LLM修復からなるアプローチを提案する。
当社のアプローチでは、"知らない"結果の8%を含む、全体的な精度を72%に向上しています。
論文 参考訳(メタデータ) (2024-05-20T00:28:00Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。