論文の概要: SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
- arxiv url: http://arxiv.org/abs/2406.10710v2
- Date: Sun, 26 Jan 2025 07:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:48.011374
- Title: SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
- Title(参考訳): SyntheT2C:Text2Cypherタスクを用いた大規模言語モデルのための合成データ生成
- Authors: Ziije Zhong, Linqing Zhong, Zhaoze Sun, Qingyun Jin, Zengchang Qin, Xiaofan Zhang,
- Abstract要約: 自然言語のCypherクエリへの翻訳を自動化することにより,Large Language ModelsとKnowledge Graphデータベースを接続することが重要である。
本研究では,合成クエリとCypherのペアデータセットを構築する手法であるSyntheT2Cを提案する。
- 参考スコア(独自算出の注目度): 4.556106845296017
- License:
- Abstract: Integrating Large Language Models (LLMs) with existing Knowledge Graph (KG) databases presents a promising avenue for enhancing LLMs' efficacy and mitigating their "hallucinations". Given that most KGs reside in graph databases accessible solely through specialized query languages (e.g., Cypher), it is critical to connect LLMs with KG databases by automating the translation of natural language into Cypher queries (termed as "Text2Cypher" task). Prior efforts tried to bolster LLMs' proficiency in Cypher generation through Supervised Fine-Tuning (SFT). However, these explorations are hindered by the lack of annotated datasets of Query-Cypher pairs, resulting from the labor-intensive and domain-specific nature of such annotation. In this study, we propose SyntheT2C, a methodology for constructing a synthetic Query-Cypher pair dataset, comprising two distinct pipelines: (1) LLM-based prompting and (2) template-filling. SyntheT2C is applied to two medical KG databases, culminating in the creation of a synthetic dataset, MedT2C. Comprehensive experiments demonstrate that the MedT2C dataset effectively enhances the performance of backbone LLMs on Text2Cypher task via SFT. Both the SyntheT2C codebase and the MedT2C dataset are released in https://github.com/ZGChung/SyntheT2C.
- Abstract(参考訳): LLM(Large Language Models)と既存のKG(Knowledge Graph)データベースの統合は、LLMの有効性を高め、その"幻覚"を緩和するための有望な道を示す。
ほとんどのKGが特殊なクエリ言語(例えばCypher)を通してのみアクセス可能なグラフデータベースに存在していることを考えると、自然言語をCypherクエリ("Text2Cypher"タスク)に自動変換することで、LLMをKGデータベースに接続することが重要である。
それまでの努力は、SFT(Supervised Fine-Tuning)を通じて、LCMのCypher生成能力を高めようとした。
しかしながら、これらの探索はQuery-Cypherペアの注釈付きデータセットの欠如によって妨げられている。
本研究では,(1)LLMベースのプロンプトと(2)テンプレート充填という2つの異なるパイプラインからなる合成クエリ-暗号ペアデータセットを構築する手法であるSyntheT2Cを提案する。
SyntheT2Cは2つの医用KGデータベースに適用され、合成データセットMedT2Cの作成が完了する。
総合実験により、MedT2Cデータセットは、SFTを介してText2CypherタスクのバックボーンLLMの性能を効果的に向上することを示した。
SyntheT2CコードベースとMedT2Cデータセットはhttps://github.com/ZGChung/SyntheT2Cでリリースされる。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - KG-CF: Knowledge Graph Completion with Context Filtering under the Guidance of Large Language Models [55.39134076436266]
KG-CFはランキングベースの知識グラフ補完タスクに適したフレームワークである。
KG-CFは、LLMの推論能力を活用して、無関係なコンテキストをフィルタリングし、現実世界のデータセットで優れた結果を得る。
論文 参考訳(メタデータ) (2025-01-06T01:52:15Z) - Auto-Cypher: Improving LLMs on Cypher generation via LLM-supervised generation-verification framework [4.080333216826685]
我々は,Text2Cypherの高品質な合成データを生成するための,自動LLMスーパービジョンパイプラインを提案する。
私たちのCypherデータ生成パイプラインは、Cypherクエリの正確性を保証するための新しい戦略であるLLM-As-Database-Fillerを導入しています。
パイプラインを使用して、高品質なText2Cypherデータを生成します。SynthCypherには、さまざまなドメインにわたる29.8kインスタンスと、さまざまな複雑さを持つクエリが含まれています。
論文 参考訳(メタデータ) (2024-12-17T07:21:25Z) - Text2Cypher: Bridging Natural Language and Graph Databases [0.3774866290142281]
Text2Cypherは、自然言語クエリをCypherクエリ言語に変換することで、このギャップを埋めることを目指している。
公開されているいくつかのデータセットを合計44,387のインスタンスに組み合わせ、整理し、整理した方法について説明している。
論文 参考訳(メタデータ) (2024-12-13T11:50:51Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - Neural Pipeline for Zero-Shot Data-to-Text Generation [3.42658286826597]
本稿では,汎用的なテキストベース操作に基づいて訓練された一連のモジュールを用いて,単一項目記述を変換してテキストを生成することを提案する。
WebNLGとE2Eという2つの主要な3重テキストデータセットに関する実験により、ゼロショット設定でのRDFトリプルからのD2T生成が可能になった。
論文 参考訳(メタデータ) (2022-03-30T13:14:35Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。