Fugu-MT 論文翻訳(概要): Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup

論文の概要: Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup

arxiv url: http://arxiv.org/abs/2502.14682v1
Date: Thu, 20 Feb 2025 16:11:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.733609
Title: Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup
Title（参考訳）: ギャップを埋める - 抽象クエリパターンとコンテキストスキーママークアップを通じて、自然言語の質問をSQLクエリに変換する
Authors: Yonghui Kong, Hongbing Hu, Dan Zhang, Siyuan Chai, Fan Zhang, Wei Wang,
Abstract要約: 構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。 PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
参考スコア（独自算出の注目度）: 6.249316460506702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated excellent performance in many tasks, including Text-to-SQL, due to their powerful in-context learning capabilities. They are becoming the mainstream approach for Text-to-SQL. However, these methods still have a significant gap compared to human performance, especially on complex questions. As the complexity of questions increases, the gap between questions and SQLs increases. We identify two important gaps: the structural mapping gap and the lexical mapping gap. To tackle these two gaps, we propose PAS-SQL, an efficient SQL generation pipeline based on LLMs, which alleviates gaps through Abstract Query Pattern (AQP) and Contextual Schema Markup (CSM). AQP aims to obtain the structural pattern of the question by removing database-related information, which enables us to find structurally similar demonstrations. CSM aims to associate database-related text span in the question with specific tables or columns in the database, which alleviates the lexical mapping gap. Experimental results on the Spider and BIRD datasets demonstrate the effectiveness of our proposed method. Specifically, PAS-SQL + GPT-4o sets a new state-of-the-art on the Spider benchmark with an execution accuracy of 87.9\%, and achieves leading results on the BIRD dataset with an execution accuracy of 64.67\%.
Abstract（参考訳）: 大規模な言語モデルは、テキストからSQLまで多くのタスクで優れたパフォーマンスを示している。それらは、Text-to-SQLのメインストリームのアプローチになりつつある。しかし、これらの手法は、特に複雑な問題において、人間のパフォーマンスと比較して大きな差がある。質問の複雑さが増すにつれて、質問とSQLのギャップが増す。構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。この2つのギャップに対処するため,LLMに基づく効率的なSQL生成パイプラインであるPAS-SQLを提案し,抽象クエリパターン(AQP)とコンテキストスキーママークアップ(CSM)を通じてギャップを緩和する。 AQP はデータベース関連情報を取り除き,構造的に類似した実演を見つけることを目的としている。 CSMは、データベースに関連するテキストをデータベース内の特定のテーブルや列に関連付けることを目的としており、これは語彙マッピングのギャップを軽減する。提案手法の有効性をスパイダーおよびBIRDデータセットで実証した。具体的には、PAS-SQL + GPT-4oは、実行精度87.9\%のSpiderベンチマークに新しい最先端をセットし、実行精度64.67\%のBIRDデータセット上でリード結果を達成する。

関連論文リスト

X-SQL: Expert Schema Linking and Understanding of Text-to-SQL with Multi-LLMs [0.0]
データベーススキーマ情報は、Text-to-Adminタスクにおいて重要な、あるいは支配的な役割を果たす。本稿では,既存のオープンソースのText-to-Admin手法と比較して,リンク結果に優れたX-Supervised Finetuning(SFT)を提案する。さらに,抽象情報とユーザの自然言語問題とのギャップを埋めることによる理解に焦点を当てたX成分を提案する。
論文参考訳（メタデータ） (2025-09-07T02:51:43Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL [18.915121803834698]
大規模言語モデル(LLM)を用いたデータベース理解のための新しいフレームワークDB-Exploreを提案する。我々のフレームワークは、多様なサンプリング戦略と自動命令生成を通じて、包括的なデータベース理解を可能にする。 Qwen2.5-coder-7Bモデルに基づくオープンソース実装は、比較評価において複数のGPT-4駆動のテキスト・ツー・コーダシステムより優れている。
論文参考訳（メタデータ） (2025-03-06T20:46:43Z)
ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Consensus Enforcement, and Column Exploration [32.83579488224367]
ReFoRCEは、スパイダー2.0のリーダーボードのトップのテキスト・トゥ・信頼のエージェントです。 ReFoRCEは35.83のスパイダー2.0-Snowと36.56のスコアで最先端の結果を得た。
論文参考訳（メタデータ） (2025-02-02T05:25:03Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文参考訳（メタデータ） (2024-09-25T09:02:48Z)
DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文参考訳（メタデータ） (2024-08-16T14:43:15Z)
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文参考訳（メタデータ） (2024-08-15T04:57:55Z)
MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文参考訳（メタデータ） (2023-12-18T14:40:20Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文参考訳（メタデータ） (2023-04-26T06:02:01Z)
S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文参考訳（メタデータ） (2022-03-14T09:49:15Z)
Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。 BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文参考訳（メタデータ） (2020-12-23T12:33:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。