論文の概要: LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL
- arxiv url: http://arxiv.org/abs/2510.02350v1
- Date: Sat, 27 Sep 2025 15:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.028013
- Title: LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL
- Title(参考訳): LLMSQL: テキストからSQLへのLLM時代のWikiSQLのアップグレード
- Authors: Dzmitry Pihulski, Karol Charchut, Viktoria Novogrodskaia, Jan Kocoń,
- Abstract要約: 本稿では,Wiki の体系的な改訂と変換である LLM について述べる。
これらのエラーを分類し、クリーニングと再アノテーションのための自動メソッドを実装します。
LLMはアップデートとして機能するのではなく、LLM対応のベンチマークとして導入された。
- 参考スコア(独自算出の注目度): 0.2799896314754614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Converting natural language questions into SQL queries (Text-to-SQL) enables non-expert users to interact with relational databases and has long been a central task for natural language interfaces to data. While the WikiSQL dataset played a key role in early NL2SQL research, its usage has declined due to structural and annotation issues, including case sensitivity inconsistencies, data type mismatches, syntax errors, and unanswered questions. We present LLMSQL, a systematic revision and transformation of WikiSQL designed for the LLM era. We classify these errors and implement automated methods for cleaning and re-annotation. To assess the impact of these improvements, we evaluated multiple large language models (LLMs), including Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 and others. Rather than serving as an update, LLMSQL is introduced as an LLM-ready benchmark: unlike the original WikiSQL, tailored for pointer-network models selecting tokens from input, LLMSQL provides clean natural language questions and full SQL queries as plain text, enabling straightforward generation and evaluation for modern natural language-to-SQL models.
- Abstract(参考訳): 自然言語の質問をSQLクエリ(Text-to-SQL)に変換することで、専門家でないユーザがリレーショナルデータベースと対話することが可能になる。
WikiSQLデータセットは、初期のNL2SQL研究において重要な役割を担ったが、ケース感度の不整合、データ型ミスマッチ、構文エラー、未回答の質問など、構造的およびアノテーションの問題により、使用量は減少している。
LLMSQLは、LLM時代に設計されたWikiSQLの体系的な改訂と変換である。
これらのエラーを分類し、クリーニングと再アノテーションのための自動メソッドを実装します。
これらの改善の影響を評価するため,Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1など,複数の大規模言語モデル(LLM)を評価した。
LLMSQLは、更新として機能するのではなく、LLM-readyベンチマークとして導入されている。最初のWikiSQLとは違い、入力からトークンを選択するポインタ-ネットワークモデルに適したものとは異なり、LLMSQLはクリーンな自然言語質問と完全なSQLクエリをプレーンテキストとして提供し、モダンな自然言語からSQLモデルへの簡単な生成と評価を可能にしている。
関連論文リスト
- End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation [6.5390580456423555]
従来のアプローチでは、直接変換タスクとしてテキストからクエリをモデル化する。
大規模言語モデル(LLM)の最近の進歩は翻訳精度を大幅に改善した。
本稿では,ユーザの意図するデータベースを識別する3段階のエンドツーエンドテキスト・ツー・エンド・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-08T15:16:36Z) - A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。
LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-08-09T14:59:36Z) - Knowledge-to-SQL: Enhancing SQL Generation with Data Expert LLM [15.888784472807775]
既存のメソッドは、クエリを生成するための大規模言語モデル(LLM)の包括的な機能に依存している。
我々は,すべてのテキスト・トゥ・モデルに対して適切な知識を利用する知識・ツー・データ・エキスパート・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T09:10:04Z) - Interleaving Pre-Trained Language Models and Large Language Models for
Zero-Shot NL2SQL Generation [23.519727682763644]
ZeroNL2は、新しい環境に適応する自然言語のtosqlの実現に不可欠である。
既存のアプローチは、データに基づいた微調整事前学習言語モデル(PLM)か、ChatGPTのような固定された大言語モデル(LLM)をガイドするプロンプトを使用する。
ゼロショットNL2をサポートするために, PLM と LLM の相補的な利点を組み合わせた ZeroNL2 フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T06:50:51Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。