論文の概要: Aligning Large Language Models to a Domain-specific Graph Database for NL2GQL
- arxiv url: http://arxiv.org/abs/2402.16567v3
- Date: Thu, 5 Sep 2024 06:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:42:07.533613
- Title: Aligning Large Language Models to a Domain-specific Graph Database for NL2GQL
- Title(参考訳): NL2GQLのためのドメイン固有グラフデータベースへの大規模言語モデルのアラインメント
- Authors: Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang, Yunshi Lan, Weining Qian,
- Abstract要約: 特定のドメインに合わせてNL2GQLタスクを適切に定義したパイプラインを提示する。
我々はChatGPTを用いてNLGQLデータペアを生成し、提供されたグラフDBを自己命令で活用する。
次に、生成されたデータを用いてLLMを微調整し、LLMとグラフDBの整合性を確保する。
- 参考スコア(独自算出の注目度): 16.637504932927616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Databases (Graph DB) find extensive application across diverse domains such as finance, social networks, and medicine. Yet, the translation of Natural Language (NL) into the Graph Query Language (GQL), referred to as NL2GQL, poses significant challenges owing to its intricate and specialized nature. Some approaches have sought to utilize Large Language Models (LLMs) to address analogous tasks like text2SQL. Nonetheless, in the realm of NL2GQL tasks tailored to a particular domain, the absence of domain-specific NL-GQL data pairs adds complexity to aligning LLMs with the graph DB. To tackle this challenge, we present a well-defined pipeline. Initially, we utilize ChatGPT to generate NL-GQL data pairs, leveraging the provided graph DB with self-instruction. Subsequently, we employ the generated data to fine-tune LLMs, ensuring alignment between LLMs and the graph DB. Moreover, we find the importance of relevant schema in efficiently generating accurate GQLs. Thus, we introduce a method to extract relevant schema as the input context. We evaluate our method using two carefully constructed datasets derived from graph DBs in the finance and medicine domains, named FinGQL and MediGQL. Experimental results reveal that our approach significantly outperforms a set of baseline methods, with improvements of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on EX for FinGQL and MediGQL, respectively.
- Abstract(参考訳): グラフデータベース(Graph DB)は、ファイナンス、ソーシャルネットワーク、医療など、さまざまな分野にまたがる広範なアプリケーションを見つける。
しかし、自然言語(NL)からグラフクエリ言語(GQL)への変換(NL2GQL)は、複雑で専門的な性質のため、大きな課題を生んでいる。
text2SQLのような類似タスクに対処するために、LLM(Large Language Models)を利用するアプローチもある。
それでも、特定のドメインに合わせたNL2GQLタスクの領域では、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合が複雑になる。
この課題に対処するために、明確に定義されたパイプラインを提示します。
当初、我々はChatGPTを使用してNL-GQLデータペアを生成し、提供されたグラフDBを自己インストラクションで活用した。
その後、生成されたデータを用いてLLMを微調整し、LLMとグラフDBの整合性を確保する。
さらに、正確なGQLを効率的に生成する上で、関連するスキーマの重要性も見出す。
そこで本研究では,関連するスキーマを入力コンテキストとして抽出する手法を提案する。
ファイナンスおよび医療分野におけるグラフDBから抽出した2つの慎重に構築されたデータセットを用いて,本手法の評価を行った。
実験の結果,EMでは5.90点,EMでは6.36点,FinGQLでは6.00点,MedGQLでは7.09点,それぞれ改善された。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。
NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文 参考訳(メタデータ) (2024-04-03T01:09:41Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - $R^3$-NL2GQL: A Model Coordination and Knowledge Graph Alignment Approach for NL2GQL [45.13624736815995]
我々はR3$-NL2GQLという新しいアプローチを導入し、ランク付け、書き換え、タスクの精錬のために、小規模と大規模なファンデーションモデルを統合する。
我々は、グラフデータベースマニュアルと選択されたオープンソース知識グラフ(KGs)を基にしたバイリンガルデータセットを開発した。
論文 参考訳(メタデータ) (2023-11-03T12:11:12Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。