Fugu-MT 論文翻訳(概要): E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL

論文の概要: E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL

arxiv url: http://arxiv.org/abs/2409.16751v2
Date: Tue, 28 Jan 2025 09:45:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.867209
Title: E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL
Title（参考訳）: E-SQL: テキストからSQLへの質問強化による直接スキーマリンク
Authors: Hasan Alp Caferoğlu, Özgür Ulusoy,
Abstract要約: E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
参考スコア（独自算出の注目度）: 1.187832944550453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Translating Natural Language Queries into Structured Query Language (Text-to-SQL or NLQ-to-SQL) is a critical task extensively studied by both the natural language processing and database communities, aimed at providing a natural language interface to databases (NLIDB) and lowering the barrier for non-experts. Despite recent advancements made through the use of Large Language Models (LLMs), significant challenges remain. These include handling complex database schemas, resolving ambiguity in user queries, and generating SQL queries with intricate structures that accurately reflect the user's intent. In this work, we introduce E-SQL, a novel pipeline specifically designed to address these challenges through direct schema linking and candidate predicate augmentation. E-SQL enhances the natural language query by incorporating relevant database items (i.e., tables, columns, and values) and conditions directly into the question and SQL construction plan, bridging the gap between the query and the database structure. The pipeline leverages candidate predicate augmentation to mitigate erroneous or incomplete predicates in generated SQLs. Comprehensive evaluations on the BIRD benchmark illustrate that E-SQL achieves competitive performance, particularly excelling in complex queries with a 66.29% execution accuracy on the test set. A further observation from our experiments reveals that incorporating schema filtering into the translation pipeline does not have a positive impact on performance when the most advanced proprietary LLMs are used. Additionally, our experiments with small LLMs highlight the importance and positive impact of enriched questions on their performance. Without fine-tuning, single-prompt SQL generation using enriched questions with DeepSeek Coder 7B Instruct 1.5v achieves 56.45% execution accuracy on the BIRD development set.
Abstract（参考訳）: 自然言語クエリを構造化クエリ言語(Text-to-SQLまたはNLQ-to-SQL)に変換することは、自然言語処理とデータベースコミュニティの両方で広く研究されている重要なタスクである。 LLM(Large Language Models)の使用による最近の進歩にもかかわらず、大きな課題が残っている。これには、複雑なデータベーススキーマの処理、ユーザクエリのあいまいさの解消、ユーザの意図を正確に反映した複雑な構造を持つSQLクエリの生成などが含まれる。本研究では、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインであるE-SQLを紹介する。 E-SQLは、関連するデータベースアイテム(テーブル、列、値)と条件を直接質問とSQL構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。このパイプラインは、候補述語拡張を利用して、生成したSQLにおける誤った述語や不完全な述語を緩和する。 BIRDベンチマークの総合的な評価は、E-SQLが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。実験結果から,スキーマフィルタを翻訳パイプラインに組み込むことは,最上級プロプライエタリなLLMを使用する場合,性能に肯定的な影響を及ぼさないことが明らかとなった。さらに,LLMを小型化して行った実験では,リッチな質問がパフォーマンスに与える影響について,その重要性と肯定的な影響を強調した。 DeepSeek Coder 7B Instruct 1.5vの豊富な質問を使って、微調整のシングルプロンプトSQL生成を行うことなく、BIRD開発セット上で56.45%の実行精度を達成する。

関連論文リスト

Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
Text to Query Plans for Question Answering on Large Tables [4.917892629916144]
本稿では,自然言語クエリをクエリ計画に変換する新しいフレームワークを提案する。主成分分析や異常検出などの複雑な解析機能を実現する。我々は、標準データベースと大規模科学表の両方の実験を通じて、我々のフレームワークを検証する。
論文参考訳（メタデータ） (2025-08-26T07:35:26Z)
HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration [1.3927943269211591]
テキスト・ツー・ジェネレーションは自然言語とデータベースのギャップを埋め、ユーザーは専門知識を必要とせずにデータをクエリできる。履歴クエリログを利用した新しいヒント生成機構を組み込んだパイプラインHI-theを提案する。先行クエリを解析することにより、マルチテーブルおよびネストされた操作の複雑さを扱うことに焦点を当てたコンテキストヒントを生成する。提案手法は,LCM生成クエリのクエリ精度を大幅に向上し,呼び出しやレイテンシの面で効率性を確保した。
論文参考訳（メタデータ） (2025-06-11T12:07:55Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
Weaver: Interweaving SQL and LLM for Table Reasoning [63.09519234853953]
Weaverは、構造化データ検索のためのsqlとセマンティック処理のためのLLMを組み合わせたフレキシブルなステップバイステッププランを生成する。 Weaverは、4つのTableQAデータセットの最先端メソッドを一貫して上回り、API呼び出しとエラー率の両方を削減する。
論文参考訳（メタデータ） (2025-05-25T03:27:37Z)
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL [18.915121803834698]
大規模言語モデル(LLM)を用いたデータベース理解のための新しいフレームワークDB-Exploreを提案する。我々のフレームワークは、多様なサンプリング戦略と自動命令生成を通じて、包括的なデータベース理解を可能にする。 Qwen2.5-coder-7Bモデルに基づくオープンソース実装は、比較評価において複数のGPT-4駆動のテキスト・ツー・コーダシステムより優れている。
論文参考訳（メタデータ） (2025-03-06T20:46:43Z)
Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup [6.249316460506702]
構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。 PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
論文参考訳（メタデータ） (2025-02-20T16:11:27Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。 GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T17:21:51Z)
SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文参考訳（メタデータ） (2024-09-16T05:40:18Z)
SQLucid: Grounding Natural Language Database Queries with Interactive Explanations [28.10727203675818]
SQLucidは、エキスパートでないユーザと複雑なデータベースクエリプロセスのギャップを埋める、新しいユーザインターフェースである。私たちのコードはhttps://github.com/magic-YuanTian/ucid.comで公開されています。
論文参考訳（メタデータ） (2024-09-10T03:14:09Z)
DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文参考訳（メタデータ） (2024-08-16T14:43:15Z)
RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。 In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-07-11T08:19:58Z)
Structure Guided Large Language Model for SQL Generation [14.079764882536077]
構造対応型テキスト・ツー・クエリ・フレームワーク(SGU)を提案する。 SGU対応のテキスト・ツー・クエリ・フレームワーク(SGU)は、最先端のテキスト・ツー・モデルよりも一貫して優れている。
論文参考訳（メタデータ） (2024-02-19T09:07:59Z)
SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文参考訳（メタデータ） (2023-10-27T00:13:59Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文参考訳（メタデータ） (2023-05-04T19:02:29Z)
xDBTagger: Explainable Natural Language Interface to Databases Using Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。 xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文参考訳（メタデータ） (2022-10-07T18:17:09Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。