Fugu-MT 論文翻訳(概要): End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation

論文の概要: End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation

arxiv url: http://arxiv.org/abs/2508.06387v2
Date: Mon, 11 Aug 2025 04:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 13:12:52.314853
Title: End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation
Title（参考訳）: データセット選択によるエンドツーエンドのテキストからSQL:適応クエリ生成のためのLLMの活用
Authors: Anurag Tripathi, Vaibhav Patle, Abhinav Jain, Ayush Pundir, Sairam Menon, Ajeet Kumar Singh, Dorien Herremans,
Abstract要約: 従来のアプローチでは、直接変換タスクとしてテキストからクエリをモデル化する。大規模言語モデル(LLM)の最近の進歩は翻訳精度を大幅に改善した。本稿では,ユーザの意図するデータベースを識別する3段階のエンドツーエンドテキスト・ツー・エンド・フレームワークを提案する。
参考スコア（独自算出の注目度）: 6.5390580456423555
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-SQL bridges the gap between natural language and structured database language, thus allowing non-technical users to easily query databases. Traditional approaches model text-to-SQL as a direct translation task, where a given Natural Language Query (NLQ) is mapped to an SQL command. Recent advances in large language models (LLMs) have significantly improved translation accuracy, however, these methods all require that the target database is pre-specified. This becomes problematic in scenarios with multiple extensive databases, where identifying the correct database becomes a crucial yet overlooked step. In this paper, we propose a three-stage end-to-end text-to-SQL framework to identify the user's intended database before generating SQL queries. Our approach leverages LLMs and prompt engineering to extract implicit information from natural language queries (NLQs) in the form of a ruleset. We then train a large db\_id prediction model, which includes a RoBERTa-based finetuned encoder, to predict the correct Database identifier (db\_id) based on both the NLQ and the LLM-generated rules. Finally, we refine the generated SQL by using critic agents to correct errors. Experimental results demonstrate that our framework outperforms the current state-of-the-art models in both database intent prediction and SQL generation accuracy.
Abstract（参考訳）: Text-to-SQLは自然言語と構造化データベース言語の間のギャップを埋め、非技術者のユーザがデータベースを簡単にクエリできるようにする。従来のアプローチでは、ある自然言語クエリ(NLQ)をSQLコマンドにマッピングする、直接変換タスクとしてテキストからSQLをモデル化する。大規模言語モデル(LLM)の最近の進歩は翻訳精度を大幅に向上させたが、これらはすべて対象データベースを事前に指定する必要がある。これは、複数の広範囲なデータベースを持つシナリオで問題になり、正しいデータベースを特定することが重要で見過ごされるステップになる。本稿では,SQLクエリを生成する前に,ユーザの意図するデータベースを識別する3段階のエンドツーエンドのテキスト・ツー・SQLフレームワークを提案する。提案手法はLLMを利用して,自然言語クエリ(NLQ)から暗黙的な情報をルールセット形式で抽出する。次に、RoBERTaベースの微調整エンコーダを含む大規模なdb\_id予測モデルをトレーニングし、NLQとLLM生成ルールの両方に基づいて正しいデータベース識別子(db\_id)を予測する。最後に、批判エージェントを使用してエラーを修正することで、生成されたSQLを洗練します。実験の結果,本フレームワークはデータベース意図予測とSQL生成精度の両方において,現在の最先端モデルよりも優れていることが示された。

関連論文リスト

E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文参考訳（メタデータ） (2024-09-25T09:02:48Z)
DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文参考訳（メタデータ） (2024-08-16T14:43:15Z)
RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。 In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-07-11T08:19:58Z)
PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文参考訳（メタデータ） (2024-03-13T02:32:41Z)
Metasql: A Generate-then-Rank Framework for Natural Language to SQL Translation [10.812409371488913]
本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫して向上する統合生成列フレームワークを提案する。 Metasqlは、より良いクエリ候補の生成を制御するためにクエリメタデータを導入し、グローバルに最適化されたクエリを検索するために学習からランクアルゴリズムを使用する。その結果,Metasqlを用いて翻訳モデルの性能を効果的に改善できることが示唆された。
論文参考訳（メタデータ） (2024-02-27T02:16:07Z)
Knowledge-to-SQL: Enhancing SQL Generation with Data Expert LLM [15.888784472807775]
既存のメソッドは、クエリを生成するための大規模言語モデル(LLM)の包括的な機能に依存している。我々は,すべてのテキスト・トゥ・モデルに対して適切な知識を利用する知識・ツー・データ・エキスパート・フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T09:10:04Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文参考訳（メタデータ） (2023-04-26T06:02:01Z)
Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文参考訳（メタデータ） (2023-04-02T06:58:14Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)
Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。データプライバシに関するアプローチを,その中核として紹介しています。成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文参考訳（メタデータ） (2020-10-11T13:18:46Z)
Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文参考訳（メタデータ） (2020-07-30T07:44:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。