論文の概要: Retrieval and Augmentation of Domain Knowledge for Text-to-SQL Semantic Parsing
- arxiv url: http://arxiv.org/abs/2510.02394v1
- Date: Wed, 01 Oct 2025 04:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.078734
- Title: Retrieval and Augmentation of Domain Knowledge for Text-to-SQL Semantic Parsing
- Title(参考訳): テキストからSQLへの意味解析のためのドメイン知識の検索と拡張
- Authors: Manasi Patwardhan, Ayush Agarwal, Shabbirhussain Bhaisaheb, Aseem Arora, Lovekesh Vig, Sunita Sarawagi,
- Abstract要約: 本稿では,構造化ドメインステートメントをデータベースレベルで関連付けるための体系的なフレームワークを提案する。
本稿では,サブストリングレベルマッチングを用いたユーザクエリに対して,関連する構造化ドメイン文の検索を行う。
- 参考スコア(独自算出の注目度): 28.56221748194599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) for translating Natural Language (NL) queries into SQL varies significantly across databases (DBs). NL queries are often expressed using a domain specific vocabulary, and mapping these to the correct SQL requires an understanding of the embedded domain expressions, their relationship to the DB schema structure. Existing benchmarks rely on unrealistic, ad-hoc query specific textual hints for expressing domain knowledge. In this paper, we propose a systematic framework for associating structured domain statements at the database level. We present retrieval of relevant structured domain statements given a user query using sub-string level match. We evaluate on eleven realistic DB schemas covering diverse domains across five open-source and proprietary LLMs and demonstrate that (1) DB level structured domain statements are more practical and accurate than existing ad-hoc query specific textual domain statements, and (2) Our sub-string match based retrieval of relevant domain statements provides significantly higher accuracy than other retrieval approaches.
- Abstract(参考訳): 自然言語(NL)クエリをSQLに変換するためのLLM(Large Language Models)のパフォーマンスは、データベース(DB)によって大きく異なる。
NLクエリはドメイン固有の語彙を使って表現されることが多く、それらを正しいSQLにマッピングするには、組み込みドメイン表現、それらのDBスキーマ構造との関係を理解する必要がある。
既存のベンチマークはドメイン知識を表現するために、非現実的でアドホックなクエリ特有のテキストヒントに依存している。
本稿では,構造化ドメインステートメントをデータベースレベルで関連付けるための体系的なフレームワークを提案する。
本稿では,サブストリングレベルマッチングを用いたユーザクエリに対して,関連する構造化ドメイン文の検索を行う。
我々は,5つのオープンソースおよびプロプライエタリなLLMの多様なドメインをカバーする11の現実的DBスキーマを評価し,(1)DBレベルの構造化ドメインステートメントが既存のアドホッククエリ固有のテキストドメインステートメントよりも実用的で正確であること,(2)関連ドメインステートメントのサブストリングマッチングに基づく検索は,他の検索手法よりもはるかに精度が高いことを実証した。
関連論文リスト
- SQL-Exchange: Transforming SQL Queries Across Domains [5.5643498845134545]
我々は、ソースクエリ構造を保存しつつ、ターゲットスキーマに適合するようにドメイン固有の要素を適用することで、異なるデータベーススキーマ間でクエリをマッピングするフレームワークを導入する。
本研究は,テキスト・トゥ・コンテクスト・システムにおけるテキスト・トゥ・コンテクスト・ラーニングの性能向上に対する,そのようなマッピングが有用かつ有益である条件について検討する。
論文 参考訳(メタデータ) (2025-08-09T19:55:54Z) - RASL: Retrieval Augmented Schema Linking for Massive Database Text-to-SQL [1.3654846342364308]
本稿では,データベーススキーマとメタデータを個別のセマンティック単位に分解するコンポーネントベースの検索アーキテクチャを提案する。
我々のソリューションは、高度な微調整をせずに、多様なエンタープライズ環境にまたがる実用的なテキスト・インタフェースを実現する。
論文 参考訳(メタデータ) (2025-07-30T21:09:47Z) - Knowledge Base Construction for Knowledge-Augmented Text-to-SQL [37.87911346522774]
本稿では,与えられたクエリに必要な知識を生成する基礎となる知識源であるテキスト・ツー・ワンの知識基盤を構築することを提案する。
私たちの知識ベースは包括的であり、利用可能なすべての質問と関連するデータベーススキーマの組み合わせに基づいて構築されます。
重なり合うデータベースシナリオと非重なり合うデータベースシナリオの両方を考慮して、複数のテキストから1つのデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-28T08:17:58Z) - Datrics Text2SQL: A Framework for Natural Language to SQL Query Generation [0.0]
本稿では,構造化ドキュメンテーション,サンプルベース学習,ドメイン固有のルールを活用することで,正確なsqlクエリを生成するためのRAG(Retrieval-Augmented Generation)ベースのフレームワークを提案する。
アーキテクチャ、トレーニング方法論、検索ロジックについて詳述し、システムがどのようにユーザ意図とデータベース構造の間のギャップを、専門知識を必要とせずに埋めるかを強調した。
論文 参考訳(メタデータ) (2025-04-03T21:09:59Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic
Knowledge [54.85168428642474]
我々は、さまざまなドメインをカバーするドメイン固有の質問からなる新しい中国のベンチマークKnowを構築した。
次に、付加的なデータ例に注釈を付けるのではなく、公式知識を提示することでこの問題に対処する。
より具体的には、ドメイン知識基盤として定式的知識バンクを構築し、解析中にこの定式的知識を活用するためのフレームワーク(ReGrouP)を提案する。
論文 参考訳(メタデータ) (2023-01-03T12:37:47Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。