Fugu-MT 論文翻訳(概要): RSL-SQL: Robust Schema Linking in Text-to-SQL Generation

論文の概要: RSL-SQL: Robust Schema Linking in Text-to-SQL Generation

arxiv url: http://arxiv.org/abs/2411.00073v2
Date: Tue, 26 Nov 2024 13:55:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.039195
Title: RSL-SQL: Robust Schema Linking in Text-to-SQL Generation
Title（参考訳）: RSL-SQL: テキストからSQL生成におけるロバストなスキーマリンク
Authors: Zhenbiao Cao, Yuanlei Zheng, Zhihao Fan, Xiaojin Zhang, Wei Chen, Xiang Bai,
Abstract要約: 本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
参考スコア（独自算出の注目度）: 51.00761167842468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-SQL generation aims to translate natural language questions into SQL statements. In Text-to-SQL based on large language models, schema linking is a widely adopted strategy to streamline the input for LLMs by selecting only relevant schema elements, therefore reducing noise and computational overhead. However, schema linking faces risks that require caution, including the potential omission of necessary elements and disruption of database structural integrity. To address these challenges, we propose a novel framework called RSL-SQL that combines bidirectional schema linking, contextual information augmentation, binary selection strategy, and multi-turn self-correction. We improve the recall of pattern linking using forward and backward pruning methods, achieving a strict recall of 94% while reducing the number of input columns by 83%. Furthermore, it hedges the risk by voting between a full mode and a simplified mode enhanced with contextual information. Experiments on the BIRD and Spider benchmarks demonstrate that our approach achieves SOTA execution accuracy among open-source solutions, with 67.2% on BIRD and 87.9% on Spider using GPT-4o. Furthermore, our approach outperforms a series of GPT-4 based Text-to-SQL systems when adopting DeepSeek (much cheaper) with same intact prompts. Extensive analysis and ablation studies confirm the effectiveness of each component in our framework. The codes are available at https://github.com/Laqcce-cao/RSL-SQL.
Abstract（参考訳）: Text-to-SQL生成は、自然言語の質問をSQLステートメントに変換することを目的としている。大規模言語モデルに基づくテキスト対SQLでは、スキーマリンクは、関連するスキーマ要素のみを選択してLSMの入力を合理化することで、ノイズや計算オーバーヘッドを減らし、広く採用されている戦略である。しかし、スキーマリンクは、必要な要素の削除やデータベースの構造的整合性の破壊など、注意を要するリスクに直面します。これらの課題に対処するために、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSL-SQLという新しいフレームワークを提案する。入力列数を83%削減しつつ、94%の厳格なリコールを実現し、前向きおよび後向きのプルーニング手法によるパターンリンクのリコールを改善した。さらに、コンテキスト情報によって強化されたフルモードと簡易モードの間の投票によってリスクをヘッジする。 BIRDとスパイダーベンチマークの実験では、我々の手法がオープンソースのソリューション間でSOTAの実行精度を達成し、BIRDは67.2%、スパイダーは87.9%をGPT-4oで達成している。さらに,GPT-4ベースのText-to-SQLシステムでは,DeepSeekを同一のプロンプトで適用した場合(非常に安価)に性能が向上する。大規模分析およびアブレーション研究により,本フレームワークにおける各コンポーネントの有効性が確認された。コードはhttps://github.com/Laqcce-cao/RSL-SQLで公開されている。

関連論文リスト

CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文参考訳（メタデータ） (2025-07-08T14:17:07Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup [6.249316460506702]
構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。 PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
論文参考訳（メタデータ） (2025-02-20T16:11:27Z)
Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL [13.122218546167463]
大規模言語モデル(LLM)は、テキスト・ツー・システムの性能を大幅に改善した。多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
論文参考訳（メタデータ） (2024-12-17T04:22:22Z)
SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文参考訳（メタデータ） (2024-09-16T05:40:18Z)
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文参考訳（メタデータ） (2024-08-15T04:57:55Z)
The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文参考訳（メタデータ） (2024-08-14T17:59:04Z)
RH-SQL: Refined Schema and Hardness Prompt for Text-to-SQL [1.734218686180302]
本稿では,精製実行モデルとハードネス・プロンプトに基づくテキスト・トゥ・エクセルの手法を提案する。パフォーマンスを維持しながら、ストレージとトレーニングのコストを削減する。スパイダーデータセットに関する我々の実験は、特に大規模なLMを用いて、82.6%の異常な精度(EX)を達成した。
論文参考訳（メタデータ） (2024-06-13T14:04:34Z)
Open-SQL Framework: Enhancing Text-to-SQL on Open-source Large Language Models [15.201658508297333]
オープンソースコヒーレンスを用いたテキスト・トゥ・オープンに適した体系的手法を提案する。コントリビューションには、テキスト・トゥ・オープンタスクにおけるオープンソースのLCMの包括的評価、効果的な質問表現のためのオープンプロンプト戦略、教師付き微調整のための新しい戦略が含まれる。 BIRD-Devデータセットでは,Llama2-7Bを2.54%から41.04%に,Code Llama-7Bを14.54%から48.24%に改善した。
論文参考訳（メタデータ） (2024-05-04T15:40:17Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。 BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文参考訳（メタデータ） (2020-12-23T12:33:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。