論文の概要: SQL-to-Schema Enhances Schema Linking in Text-to-SQL
- arxiv url: http://arxiv.org/abs/2405.09593v1
- Date: Wed, 15 May 2024 12:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 16:09:33.706664
- Title: SQL-to-Schema Enhances Schema Linking in Text-to-SQL
- Title(参考訳): SQL-to-SchemaがテキストからSQLへのスキーマリンクを強化
- Authors: Sun Yang, Qiong Su, Zhishuai Li, Ziyue Li, Hangyu Mao, Chenxi Liu, Rui Zhao,
- Abstract要約: テキストから音声へのメソッドでは、不要なテーブルや列をフィルタリングする必要がある。
これまでのアプローチでは、テーブルや列のソートが問題との関連性に基づいて行われてきた。
提案手法は,2段階に分けて提案するスキーマリンク方式である。
- 参考スコア(独自算出の注目度): 15.6857201570992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sophisticated existing Text-to-SQL methods exhibit errors in various proportions, including schema-linking errors (incorrect columns, tables, or extra columns), join errors, nested errors, and group-by errors. Consequently, there is a critical need to filter out unnecessary tables and columns, directing the language models attention to relevant tables and columns with schema-linking, to reduce errors during SQL generation. Previous approaches have involved sorting tables and columns based on their relevance to the question, selecting the top-ranked ones for sorting, or directly identifying the necessary tables and columns for SQL generation. However, these methods face challenges such as lengthy model training times, high consumption of expensive GPT-4 tokens in few-shot prompts, or suboptimal performance in schema linking. Therefore, we propose an inventive schema linking method in two steps: Firstly, generate an initial SQL query by utilizing the complete database schema. Subsequently, extract tables and columns from the initial SQL query to create a concise schema. Using CodeLlama-34B, when comparing the schemas obtained by mainstream methods with ours for SQL generation, our schema performs optimally. Leveraging GPT4, our SQL generation method achieved results that are comparable to mainstream Text-to-SQL methods on the Spider dataset.
- Abstract(参考訳): 従来のText-to-SQLメソッドでは、スキーマリンクエラー(間違った列、テーブル、余分な列)、ジョインエラー、ネストエラー、グループバイエラーなど、さまざまな比率でエラーを表示する。
その結果、不要なテーブルと列をフィルタリングし、言語モデルを関連するテーブルと列にスキーマリンクで注意を向け、SQL生成時のエラーを減らす必要がある。
従来のアプローチでは、テーブルと列のソートは、質問との関連性に基づいて行われ、ソートのために上位のテーブルを選択したり、SQL生成に必要なテーブルと列を直接識別したりしていた。
しかし、これらの手法は、長大なモデルトレーニング時間、数発のプロンプトにおける高価なGPT-4トークンの高消費、スキーマリンクにおける準最適性能といった課題に直面している。
そこで本研究では,提案手法を2段階に分けて提案する。 まず,完全なデータベーススキーマを利用して,初期SQLクエリを生成する。
その後、最初のSQLクエリからテーブルと列を抽出して、簡潔なスキーマを生成する。
CodeLlama-34Bを用いて、主流のメソッドによって得られたスキーマとSQL生成のためのスキーマを比較する場合、スキーマは最適に動作します。
GPT4を活用することで、我々のSQL生成方法は、Spiderデータセット上のメインストリームのText-to-SQLメソッドに匹敵する結果を得た。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。
本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T09:24:03Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。
より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。
文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文 参考訳(メタデータ) (2024-08-14T17:59:04Z) - Schema-Aware Multi-Task Learning for Complex Text-to-SQL [4.913409359995421]
複雑なsqlクエリのためのスキーマ対応マルチタスク学習フレームワーク(MT)を提案する。
具体的には、有効な質問スキーマリンクを識別するために、識別器モジュールを設計する。
デコーダ側では、テーブルと列の接続を記述するために、6種類の関係を定義します。
論文 参考訳(メタデータ) (2024-03-09T01:13:37Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL [47.14954737590405]
既存のテキストからテキストへのジェネレータでは、スキーマ全体をユーザテキストでエンコードする必要がある。
大規模な構造化データベースをサブセット化するのに、標準的な高密度検索技術は不十分である。
大規模データベース上でスキーマサブセットを作成するためのベンチマークを3つ導入する。
論文 参考訳(メタデータ) (2023-11-02T12:13:52Z) - Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema
Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。
本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。
3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-08-08T03:59:33Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Mention Extraction and Linking for SQL Query Generation [6.186311061181687]
wikiベンチマークでは、最先端のテキスト対テキストシステムは通常、スロットタイプごとにいくつかの専用モデルを構築することでスロット満載のアプローチを取る。
本論文では,質問文に現れる全てのスロット参照を統一抽出器が認識する,新たな抽出リンク手法を提案する。
提案手法は, 自動生成アノテーションを用いて学習し, Wikiベンチマークで第1位を達成している。
論文 参考訳(メタデータ) (2020-12-18T06:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。