Fugu-MT 論文翻訳(概要): Aligning Large Language Models to a Domain-specific Graph Database

論文の概要: Aligning Large Language Models to a Domain-specific Graph Database

arxiv url: http://arxiv.org/abs/2402.16567v2
Date: Wed, 28 Feb 2024 07:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 12:00:21.815634
Title: Aligning Large Language Models to a Domain-specific Graph Database
Title（参考訳）: 大規模言語モデルのドメイン固有グラフデータベースへのアライメント
Authors: Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang, Yunshi Lan, Weining Qian
Abstract要約: 本研究では,NLGQLデータペアを自己インストラクト付きグラフDBに基づいて,適切に定義したパイプラインを提案する。ファイナンスドメインと医療ドメイン,すなわちFinGQLとMediGQLのグラフDBから得られた2つの構築データセットについて,本手法の評価を行った。
参考スコア（独自算出の注目度）: 17.471804607532732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph Databases (Graph DB) are widely applied in various fields, including finance, social networks, and medicine. However, translating Natural Language (NL) into the Graph Query Language (GQL), commonly known as NL2GQL, proves to be challenging due to its inherent complexity and specialized nature. Some approaches have sought to utilize Large Language Models (LLMs) to address analogous tasks like text2SQL. Nevertheless, when it comes to NL2GQL taskson a particular domain, the absence of domain-specific NL-GQL data pairs makes it difficult to establish alignment between LLMs and the graph DB. To address this challenge, we propose a well-defined pipeline. Specifically, we utilize ChatGPT to create NL-GQL data pairs based on the given graph DB with self-instruct. Then, we use the created data to fine-tune LLMs, thereby achieving alignment between LLMs and the graph DB. Additionally, during inference, we propose a method that extracts relevant schema to the queried NL as the input context to guide LLMs for generating accurate GQLs.We evaluate our method on two constructed datasets deriving from graph DBs in finance domain and medicine domain, namely FinGQL and MediGQL. Experimental results demonstrate that our method significantly outperforms a set of baseline methods, with improvements of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on EX, respectively.
Abstract（参考訳）: グラフデータベース(Graph DB)は金融、ソーシャルネットワーク、医療など様々な分野で広く利用されている。しかしながら、自然言語(NL)をグラフクエリ言語(GQL)に変換することは、NL2GQLとして知られているが、その固有の複雑さと特殊性のため、難しいことが証明されている。大規模言語モデル(LLM)を使ってtext2SQLのような類似タスクに対処するアプローチもある。それでも、特定のドメインでのNL2GQLタスクに関しては、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合性を確立するのは難しい。この課題に対処するために,我々は明確に定義されたパイプラインを提案する。具体的には、ChatGPTを使用して、自己命令付きグラフDBに基づいて、NL-GQLデータペアを作成する。次に、作成したデータを用いてLLMを微調整し、LLMとグラフDBの整合性を実現する。さらに, 推定中に, クエリされたnlのスキーマを入力コンテキストとして抽出し, llmをガイドして正確なgqlを生成する手法を提案し, 金融領域のグラフdbと医学領域のグラフdb, fingqlとmedigqlから導出した2つのデータセットについて評価を行った。実験の結果,EMでは5.90点,EMでは6.36点,EXでは6.00点,EXでは7.09点,それぞれ改良された。

関連論文リスト

Multi-turn Natural Language to Graph Query Language Translation [15.249580032219336]
現実的なアプリケーションでは、グラフデータベースとのユーザインタラクションは通常、マルチターン、動的、コンテキスト依存である。シングルターン変換に焦点を当てた研究は、マルチターン対話や複雑なコンテキスト依存に効果的に対応できない。大規模言語モデル(LLM)に基づくマルチターンNL2GQLデータセットの自動構築法を提案する。
論文参考訳（メタデータ） (2025-08-03T17:56:52Z)
Adaptive Tokenization: On the Hop-Overpriority Problem in Tokenized Graph Learning Models [59.98982735197465]
トークン学習モデル(TGLM)は、グラフをスケーラブルな処理のために順序付きトークンリストに変換する。 TGLMは手書きのトークンリストに依存しており、さまざまなグラフ学習シナリオへの適応性はまだ未検討である。本稿では,手書きのトークンリストをTGLMで置き換えるプラグイン・アンド・プレイモジュールであるLearnable Graph Token List(LGTL)を提案する。
論文参考訳（メタデータ） (2025-05-19T06:25:33Z)
GraphRAFT: Retrieval Augmented Fine-Tuning for Knowledge Graphs on Graph Databases [0.0]
GraphRAFTは、LCMを微調整して、確実に正しいCypherクエリを生成する、検索と推論のためのフレームワークである。本手法は,自然グラフDBに格納された知識グラフを用いて,棚から取り出すことができる最初の方法である。
論文参考訳（メタデータ） (2025-04-07T20:16:22Z)
NAT-NL2GQL: A Novel Multi-Agent Framework for Translating Natural Language to Graph Query Language [13.661054027428868]
自然言語をグラフクエリ言語に変換する新しいフレームワークであるNAT-NL2GQLを提案する。私たちのフレームワークは、プリプロセッサエージェント、ジェネレータエージェント、Refinerエージェントの3つの相乗的エージェントで構成されています。 nGQL構文に基づく高品質なオープンソースNL2GQLデータセットの不足を踏まえ、金融市場グラフデータベースから構築されたデータセットであるStockGQLを開発した。
論文参考訳（メタデータ） (2024-12-11T04:14:09Z)
Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-13T09:11:56Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文参考訳（メタデータ） (2024-09-29T11:38:45Z)
Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T15:41:53Z)
NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。 NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文参考訳（メタデータ） (2024-04-03T01:09:41Z)
SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文参考訳（メタデータ） (2024-02-07T07:24:01Z)
$R^3$-NL2GQL: A Model Coordination and Knowledge Graph Alignment Approach for NL2GQL [45.13624736815995]
我々はR3$-NL2GQLという新しいアプローチを導入し、ランク付け、書き換え、タスクの精錬のために、小規模と大規模なファンデーションモデルを統合する。我々は、グラフデータベースマニュアルと選択されたオープンソース知識グラフ(KGs)を基にしたバイリンガルデータセットを開発した。
論文参考訳（メタデータ） (2023-11-03T12:11:12Z)
Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。 LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文参考訳（メタデータ） (2023-10-09T07:59:34Z)
ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。 ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文参考訳（メタデータ） (2020-10-19T23:53:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。