論文の概要: SynthCypher: A Fully Synthetic Data Generation Framework for Text-to-Cypher Querying in Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2412.12612v1
- Date: Tue, 17 Dec 2024 07:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:31.591243
- Title: SynthCypher: A Fully Synthetic Data Generation Framework for Text-to-Cypher Querying in Knowledge Graphs
- Title(参考訳): SynthCypher:知識グラフにおけるテキストから暗号へのクエリのための完全合成データ生成フレームワーク
- Authors: Aman Tiwari, Shiva Krishna Reddy Malay, Vikas Yadav, Masoud Hashemi, Sathwik Tejaswi Madhusudhan,
- Abstract要約: CypherはNeo4jグラフデータベースのクエリ言語である。
完全合成および自動化されたデータ生成パイプラインであるSynthCypherを紹介する。
SynthCypherは、新しいLLMSupervised Generation-Verificationフレームワークを採用している。
- 参考スコア(独自算出の注目度): 4.080333216826685
- License:
- Abstract: Cypher, the query language for Neo4j graph databases, plays a critical role in enabling graph-based analytics and data exploration. While substantial research has been dedicated to natural language to SQL query generation (Text2SQL), the analogous problem for graph databases referred to as Text2Cypher remains underexplored. In this work, we introduce SynthCypher, a fully synthetic and automated data generation pipeline designed to address this gap. SynthCypher employs a novel LLMSupervised Generation-Verification framework, ensuring syntactically and semantically correct Cypher queries across diverse domains and query complexities. Using this pipeline, we create SynthCypher Dataset, a large-scale benchmark containing 29.8k Text2Cypher instances. Fine-tuning open-source large language models (LLMs), including LLaMa-3.1- 8B, Mistral-7B, and QWEN-7B, on SynthCypher yields significant performance improvements of up to 40% on the Text2Cypher test set and 30% on the SPIDER benchmark adapted for graph databases. This work demonstrates that high-quality synthetic data can effectively advance the state-of-the-art in Text2Cypher tasks.
- Abstract(参考訳): Neo4jグラフデータベース用のクエリ言語であるCypherは、グラフベースの分析とデータ探索を可能にする上で、重要な役割を果たす。
自然言語からSQLクエリ生成(Text2SQL)まで、かなりの研究が続けられてきたが、Text2Cypherと呼ばれるグラフデータベースの類似の問題はまだ未解決のままである。
本研究では、このギャップに対処するために設計された、完全に合成され、自動化されたデータ生成パイプラインであるSynthCypherを紹介する。
SynthCypher は LLM Supervised Generation-Verification フレームワークを採用しており、様々なドメインやクエリの複雑さに対して、構文的に、セマンティックに正しい Cypher クエリを保証する。
このパイプラインを使用して、29.8kのText2Cypherインスタンスを含む大規模ベンチマークであるSynthCypher Datasetを作成する。
SynthCypher上でのLLaMa-3.1-8B、Mistral-7B、QWEN-7Bなどのオープンソースの大規模言語モデル(LLM)は、Text2Cypherテストセットで最大40%、グラフデータベースに適応したSPIDERベンチマークで30%の大幅なパフォーマンス向上を実現している。
この研究は、高品質な合成データがText2Cypherタスクの最先端化を効果的に進めることを示した。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Dinkel: Testing Graph Database Engines via State-Aware Query Generation [7.862046740710873]
グラフデータベース管理システム(GDBMS)は、グラフデータを格納し、操作し、多くのデータ駆動アプリケーションの中核部分を形成する。
信頼性を確保するために、Cypherでクエリを生成することでGDBMSをテストするいくつかの方法が提案されている。
GDBMSのための複雑なCypherクエリを生成するための、新しい状態認識テスト手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:00:24Z) - SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task [4.556106845296017]
SyntheT2Cは2つの医療データベースに適用され、合成データセットMedT2Cの作成が完了する。
このデータセットは、Text2CypherタスクのバックボーンLDMのパフォーマンスを効果的に向上させる。
SyntheT2CとMedT2Cデータセットの両方が近くリリースされる。
論文 参考訳(メタデータ) (2024-06-15T18:43:49Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - A Novel Approach for Generating SPARQL Queries from RDF Graphs [0.0]
この研究は、研究マスターの論文プロジェクトの一部として行われている。
目標は、RDFグラフをクエリするために、ユーザが提供するキーワードに基づいてSPARQLクエリを生成することだ。
論文 参考訳(メタデータ) (2020-05-30T18:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。