論文の概要: Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
- arxiv url: http://arxiv.org/abs/2505.22096v1
- Date: Wed, 28 May 2025 08:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.492646
- Title: Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
- Title(参考訳): 知識を付加したテキスト・トゥ・SQLのための知識ベース構築
- Authors: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya,
- Abstract要約: 本稿では,与えられたクエリに必要な知識を生成する基礎となる知識源であるテキスト・ツー・ワンの知識基盤を構築することを提案する。
私たちの知識ベースは包括的であり、利用可能なすべての質問と関連するデータベーススキーマの組み合わせに基づいて構築されます。
重なり合うデータベースシナリオと非重なり合うデータベースシナリオの両方を考慮して、複数のテキストから1つのデータセットに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 37.87911346522774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL aims to translate natural language queries into SQL statements, which is practical as it enables anyone to easily retrieve the desired information from databases. Recently, many existing approaches tackle this problem with Large Language Models (LLMs), leveraging their strong capability in understanding user queries and generating corresponding SQL code. Yet, the parametric knowledge in LLMs might be limited to covering all the diverse and domain-specific queries that require grounding in various database schemas, which makes generated SQLs less accurate oftentimes. To tackle this, we propose constructing the knowledge base for text-to-SQL, a foundational source of knowledge, from which we retrieve and generate the necessary knowledge for given queries. In particular, unlike existing approaches that either manually annotate knowledge or generate only a few pieces of knowledge for each query, our knowledge base is comprehensive, which is constructed based on a combination of all the available questions and their associated database schemas along with their relevant knowledge, and can be reused for unseen databases from different datasets and domains. We validate our approach on multiple text-to-SQL datasets, considering both the overlapping and non-overlapping database scenarios, where it outperforms relevant baselines substantially.
- Abstract(参考訳): Text-to-SQLは、自然言語クエリをSQLステートメントに変換することを目的としている。
近年、ユーザクエリを理解し、対応するSQLコードを生成するという強力な能力を活用して、LLM(Large Language Models)によるこの問題に対処するアプローチが数多く存在する。
しかし、LLMにおけるパラメトリックな知識は、様々なデータベーススキーマの基盤を必要とする、多種多様なドメイン固有のクエリをすべてカバーすることに限定されるかもしれない。
そこで本研究では,与えられたクエリに必要な知識を検索し,生成する基礎となる知識源であるtext-to-SQLの知識ベースを構築することを提案する。
特に、手動で知識をアノテートするか、クエリ毎にわずかな知識しか生成しない既存のアプローチとは異なり、私たちの知識ベースは包括的なものであり、利用可能なすべての質問と関連するデータベーススキーマの組み合わせと関連する知識に基づいて構築され、異なるデータセットやドメインから目に見えないデータベースに再利用できます。
重なり合うデータベースシナリオと非重なり合うデータベースシナリオの両方を考慮して、複数のテキスト-SQLデータセットに対するアプローチを検証する。
関連論文リスト
- Text2SQL is Not Enough: Unifying AI and Databases with TAG [47.45480855418987]
Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
論文 参考訳(メタデータ) (2024-08-27T00:50:14Z) - Knowledge-to-SQL: Enhancing SQL Generation with Data Expert LLM [15.888784472807775]
既存のメソッドは、クエリを生成するための大規模言語モデル(LLM)の包括的な機能に依存している。
我々は,すべてのテキスト・トゥ・モデルに対して適切な知識を利用する知識・ツー・データ・エキスパート・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T09:10:04Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic
Knowledge [54.85168428642474]
我々は、さまざまなドメインをカバーするドメイン固有の質問からなる新しい中国のベンチマークKnowを構築した。
次に、付加的なデータ例に注釈を付けるのではなく、公式知識を提示することでこの問題に対処する。
より具体的には、ドメイン知識基盤として定式的知識バンクを構築し、解析中にこの定式的知識を活用するためのフレームワーク(ReGrouP)を提案する。
論文 参考訳(メタデータ) (2023-01-03T12:37:47Z) - AskYourDB: An end-to-end system for querying and visualizing relational
databases using natural language [0.0]
複雑な自然言語をSQLに変換するという課題に対処する意味解析手法を提案する。
我々は、モデルが本番環境にデプロイされたときに重要な部分を占める様々な前処理と後処理のステップによって、最先端のモデルを修正した。
製品がビジネスで利用できるようにするために、クエリ結果に自動視覚化フレームワークを追加しました。
論文 参考訳(メタデータ) (2022-10-16T13:31:32Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - Translating synthetic natural language to database queries: a polyglot
deep learning framework [0.0]
Polyglotterは自然言語検索とデータベースクエリのマッピングをサポートする。
トレーニングのために手動で注釈付きデータを作成する必要はない。
我々のフレームワークは, 合成データベースと実データベースの両方で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-04-14T17:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。