論文の概要: Aligning Large Language Models to a Domain-specific Graph Database
- arxiv url: http://arxiv.org/abs/2402.16567v2
- Date: Wed, 28 Feb 2024 07:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 12:00:21.815634
- Title: Aligning Large Language Models to a Domain-specific Graph Database
- Title(参考訳): 大規模言語モデルのドメイン固有グラフデータベースへのアライメント
- Authors: Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang,
Yunshi Lan, Weining Qian
- Abstract要約: 本研究では,NLGQLデータペアを自己インストラクト付きグラフDBに基づいて,適切に定義したパイプラインを提案する。
ファイナンスドメインと医療ドメイン,すなわちFinGQLとMediGQLのグラフDBから得られた2つの構築データセットについて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 17.471804607532732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Databases (Graph DB) are widely applied in various fields, including
finance, social networks, and medicine. However, translating Natural Language
(NL) into the Graph Query Language (GQL), commonly known as NL2GQL, proves to
be challenging due to its inherent complexity and specialized nature. Some
approaches have sought to utilize Large Language Models (LLMs) to address
analogous tasks like text2SQL. Nevertheless, when it comes to NL2GQL taskson a
particular domain, the absence of domain-specific NL-GQL data pairs makes it
difficult to establish alignment between LLMs and the graph DB. To address this
challenge, we propose a well-defined pipeline. Specifically, we utilize ChatGPT
to create NL-GQL data pairs based on the given graph DB with self-instruct.
Then, we use the created data to fine-tune LLMs, thereby achieving alignment
between LLMs and the graph DB. Additionally, during inference, we propose a
method that extracts relevant schema to the queried NL as the input context to
guide LLMs for generating accurate GQLs.We evaluate our method on two
constructed datasets deriving from graph DBs in finance domain and medicine
domain, namely FinGQL and MediGQL. Experimental results demonstrate that our
method significantly outperforms a set of baseline methods, with improvements
of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on
EX, respectively.
- Abstract(参考訳): グラフデータベース(Graph DB)は金融、ソーシャルネットワーク、医療など様々な分野で広く利用されている。
しかしながら、自然言語(NL)をグラフクエリ言語(GQL)に変換することは、NL2GQLとして知られているが、その固有の複雑さと特殊性のため、難しいことが証明されている。
大規模言語モデル(LLM)を使ってtext2SQLのような類似タスクに対処するアプローチもある。
それでも、特定のドメインでのNL2GQLタスクに関しては、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合性を確立するのは難しい。
この課題に対処するために,我々は明確に定義されたパイプラインを提案する。
具体的には、ChatGPTを使用して、自己命令付きグラフDBに基づいて、NL-GQLデータペアを作成する。
次に、作成したデータを用いてLLMを微調整し、LLMとグラフDBの整合性を実現する。
さらに, 推定中に, クエリされたnlのスキーマを入力コンテキストとして抽出し, llmをガイドして正確なgqlを生成する手法を提案し, 金融領域のグラフdbと医学領域のグラフdb, fingqlとmedigqlから導出した2つのデータセットについて評価を行った。
実験の結果,EMでは5.90点,EMでは6.36点,EXでは6.00点,EXでは7.09点,それぞれ改良された。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。
NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文 参考訳(メタデータ) (2024-04-03T01:09:41Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - $R^3$-NL2GQL: A Model Coordination and Knowledge Graph Alignment Approach for NL2GQL [45.13624736815995]
我々はR3$-NL2GQLという新しいアプローチを導入し、ランク付け、書き換え、タスクの精錬のために、小規模と大規模なファンデーションモデルを統合する。
我々は、グラフデータベースマニュアルと選択されたオープンソース知識グラフ(KGs)を基にしたバイリンガルデータセットを開発した。
論文 参考訳(メタデータ) (2023-11-03T12:11:12Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。