論文の概要: SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
- arxiv url: http://arxiv.org/abs/2406.10710v1
- Date: Sat, 15 Jun 2024 18:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:04:22.114311
- Title: SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
- Title(参考訳): SyntheT2C:Text2Cypherタスクを用いた大規模言語モデルのための合成データ生成
- Authors: Ziije Zhong, Linqing Zhong, Zhaoze Sun, Qingyun Jin, Zengchang Qin, Xiaofan Zhang,
- Abstract要約: SyntheT2Cは2つの医療データベースに適用され、合成データセットMedT2Cの作成が完了する。
このデータセットは、Text2CypherタスクのバックボーンLDMのパフォーマンスを効果的に向上させる。
SyntheT2CとMedT2Cデータセットの両方が近くリリースされる。
- 参考スコア(独自算出の注目度): 4.556106845296017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating Large Language Models (LLMs) with existing Knowledge Graph (KG) databases presents a promising avenue for enhancing LLMs' efficacy and mitigating their "hallucinations". Given that most KGs reside in graph databases accessible solely through specialized query languages (e.g., Cypher), there exists a critical need to bridge the divide between LLMs and KG databases by automating the translation of natural language into Cypher queries (commonly termed the "Text2Cypher" task). Prior efforts tried to bolster LLMs' proficiency in Cypher generation through Supervised Fine-Tuning. However, these explorations are hindered by the lack of annotated datasets of Query-Cypher pairs, resulting from the labor-intensive and domain-specific nature of annotating such datasets. In this study, we propose SyntheT2C, a methodology for constructing a synthetic Query-Cypher pair dataset, comprising two distinct pipelines: (1) LLM-based prompting and (2) template-filling. SyntheT2C facilitates the generation of extensive Query-Cypher pairs with values sampled from an underlying Neo4j graph database. Subsequently, SyntheT2C is applied to two medical databases, culminating in the creation of a synthetic dataset, MedT2C. Comprehensive experiments demonstrate that the MedT2C dataset effectively enhances the performance of backbone LLMs on the Text2Cypher task. Both the SyntheT2C codebase and the MedT2C dataset will be released soon.
- Abstract(参考訳): LLM(Large Language Models)と既存のKG(Knowledge Graph)データベースの統合は、LLMの有効性を高め、その"幻覚"を緩和するための有望な道を示す。
ほとんどのKGが特殊なクエリ言語(例えばCypher)を通してのみアクセス可能なグラフデータベースに存在していることを考えると、自然言語のCypherクエリへの変換を自動化することで、LLMとKGデータベースの分割を橋渡しする必要がある(一般的には"Text2Cypher"タスクと呼ばれる)。
それまでの努力は、スーパーバイザード・ファインチューニング(Supervised Fine-Tuning)を通じて、LCMのCypher生成能力を高めようとした。
しかしながら、これらの探索はQuery-Cypherペアのアノテートデータセットの欠如によって妨げられている。
本研究では,(1)LLMベースのプロンプトと(2)テンプレート充填という2つの異なるパイプラインからなる合成クエリ-暗号ペアデータセットを構築する手法であるSyntheT2Cを提案する。
SyntheT2Cは、基礎となるNeo4jグラフデータベースからサンプリングされた値を持つ、広範囲なクエリ-暗号ペアの生成を容易にする。
その後、SyntheT2Cは2つの医療データベースに適用され、合成データセットMedT2Cが生成される。
総合実験により、MedT2Cデータセットは、Text2Cypherタスク上でのバックボーンLLMのパフォーマンスを効果的に向上することを示した。
SyntheT2CコードベースとMedT2Cデータセットの両方が近くリリースされる。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-13T02:32:41Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - cTBLS: Augmenting Large Language Models with Conversational Tables [0.76146285961466]
会話表(英語: Conversational Tables、cTBLS)は、検索した表情報に基づいて対話応答を検索して生成する3段階アーキテクチャである。
人間の評価者は、cTBLs+80%の時間(コヒーレンシー、流派)を好んでおり、以前の最先端よりも4倍良いと判断する。
論文 参考訳(メタデータ) (2023-03-21T17:04:44Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。