論文の概要: Text2GQL-Bench: A Text to Graph Query Language Benchmark [Experiment, Analysis & Benchmark]
- arxiv url: http://arxiv.org/abs/2602.11745v1
- Date: Thu, 12 Feb 2026 09:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.741771
- Title: Text2GQL-Bench: A Text to Graph Query Language Benchmark [Experiment, Analysis & Benchmark]
- Title(参考訳): Text2GQL-Bench: グラフクエリ言語ベンチマークのためのテキスト [experiment, Analysis & Benchmark]
- Authors: Songlin Lyu, Lujie Ban, Zihang Wu, Tianqi Luo, Jirong Liu, Chenhao Ma, Yuyu Luo, Nan Tang, Shipeng Qi, Heng Lin, Yongchao Liu, Chuntao Hong,
- Abstract要約: Text-to-Graph-Query-Language (Text-to-GQL)システムは、自然言語を実行可能なグラフクエリに変換するトランスレータとして機能する。
既存のデータセットはドメインカバレッジ、グラフクエリ言語のサポート、評価範囲に制限されることが多い。
この制限に対処するために設計されたText-to-GQLベンチマークであるText2GQL-Benchを紹介する。
- 参考スコア(独自算出の注目度): 16.678372445240957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph models are fundamental to data analysis in domains rich with complex relationships. Text-to-Graph-Query-Language (Text-to-GQL) systems act as a translator, converting natural language into executable graph queries. This capability allows Large Language Models (LLMs) to directly analyze and manipulate graph data, posi-tioning them as powerful agent infrastructures for Graph Database Management System (GDBMS). Despite recent progress, existing datasets are often limited in domain coverage, supported graph query languages, or evaluation scope. The advancement of Text-to-GQL systems is hindered by the lack of high-quality benchmark datasets and evaluation methods to systematically compare model capabilities across different graph query languages and domains. In this work, we present Text2GQL-Bench, a unified Text-to-GQL benchmark designed to address these limitations. Text2GQL-Bench couples a multi-GQL dataset that has 178,184 (Question, Query) pairs spanning 13 domains, with a scalable construction framework that generates datasets in different domains, question abstraction levels, and GQLs with heterogeneous resources. To support compre-hensive assessment, we introduce an evaluation method that goes beyond a single end-to-end metric by jointly reporting grammatical validity, similarity, semantic alignment, and execution accuracy. Our evaluation uncovers a stark dialect gap in ISO-GQL generation: even strong LLMs achieve only at most 4% execution accuracy (EX) in zero-shot settings, though a fixed 3-shot prompt raises accuracy to around 50%, the grammatical validity remains lower than 70%. Moreover, a fine-tuned 8B open-weight model reaches 45.1% EX, and 90.8% grammatical validity, demonstrating that most of the performance jump is unlocked by exposure to sufficient ISO-GQL examples.
- Abstract(参考訳): グラフモデルは複雑な関係に富んだ領域におけるデータ分析の基礎となる。
Text-to-Graph-Query-Language (Text-to-GQL)システムは、自然言語を実行可能なグラフクエリに変換するトランスレータとして機能する。
この機能により、LLM(Large Language Models)はグラフデータを直接分析して操作することができ、グラフデータベース管理システム(GDBMS)の強力なエージェントインフラストラクチャとして機能する。
最近の進歩にもかかわらず、既存のデータセットはドメインカバレッジ、グラフクエリ言語のサポート、評価範囲に制限されることが多い。
Text-to-GQLシステムの進歩は、さまざまなグラフクエリ言語やドメイン間でモデル機能を体系的に比較する高品質なベンチマークデータセットと評価方法の欠如によって妨げられている。
本研究では、これらの制限に対処するために設計された、Text-to-GQLベンチマークであるText2GQL-Benchを紹介する。
Text2GQL-Benchは、13ドメインにまたがる178,184(Question, Query)ペアを持つマルチGQLデータセットと、さまざまなドメインのデータセットを生成するスケーラブルな構築フレームワーク、質問抽象化レベル、異種リソースを備えたGQLを結合する。
本稿では, 文法的妥当性, 類似性, セマンティックアライメント, 実行精度を共同で報告することにより, 単一エンドツーエンドの指標を超える評価手法を提案する。
ゼロショット設定では,強いLLMでも少なくとも4%の実行精度(EX)が達成されるが,固定3ショットでは約50%の精度で精度が向上するが,文法的妥当性は70%以下である。
さらに、微調整された8Bオープンウェイトモデルが45.1%EXに到達し、90.8%の文法的妥当性が証明された。
関連論文リスト
- Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - NAT-NL2GQL: A Novel Multi-Agent Framework for Translating Natural Language to Graph Query Language [13.661054027428868]
自然言語をグラフクエリ言語に変換する新しいフレームワークであるNAT-NL2GQLを提案する。
私たちのフレームワークは、プリプロセッサエージェント、ジェネレータエージェント、Refinerエージェントの3つの相乗的エージェントで構成されています。
nGQL構文に基づく高品質なオープンソースNL2GQLデータセットの不足を踏まえ、金融市場グラフデータベースから構築されたデータセットであるStockGQLを開発した。
論文 参考訳(メタデータ) (2024-12-11T04:14:09Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Aligning Large Language Models to a Domain-specific Graph Database for NL2GQL [16.637504932927616]
特定のドメインに合わせてNL2GQLタスクを適切に定義したパイプラインを提示する。
我々はChatGPTを用いてNLGQLデータペアを生成し、提供されたグラフDBを自己命令で活用する。
次に、生成されたデータを用いてLLMを微調整し、LLMとグラフDBの整合性を確保する。
論文 参考訳(メタデータ) (2024-02-26T13:46:51Z) - $R^3$-NL2GQL: A Model Coordination and Knowledge Graph Alignment Approach for NL2GQL [45.13624736815995]
我々はR3$-NL2GQLという新しいアプローチを導入し、ランク付け、書き換え、タスクの精錬のために、小規模と大規模なファンデーションモデルを統合する。
我々は、グラフデータベースマニュアルと選択されたオープンソース知識グラフ(KGs)を基にしたバイリンガルデータセットを開発した。
論文 参考訳(メタデータ) (2023-11-03T12:11:12Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。