Fugu-MT 論文翻訳(概要): A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going?

論文の概要: A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going?

arxiv url: http://arxiv.org/abs/2408.05109v5
Date: Sun, 15 Jun 2025 15:53:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 15:15:28.398255
Title: A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going?
Title（参考訳）: LLM時代のテキストからSQLへの調査:我々はどこにいて、どこに行くのか?
Authors: Xinyu Liu, Shuyu Shen, Boyan Li, Peixian Ma, Runzhi Jiang, Yuxin Zhang, Ju Fan, Guoliang Li, Nan Tang, Yuyu Luo,
Abstract要約: 我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。 LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
参考スコア（独自算出の注目度）: 32.84561352339466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Translating users' natural language queries (NL) into SQL queries (i.e., Text-to-SQL, a.k.a. NL2SQL) can significantly reduce barriers to accessing relational databases and support various commercial applications. The performance of Text-to-SQL has been greatly enhanced with the emergence of Large Language Models (LLMs). In this survey, we provide a comprehensive review of Text-to-SQL techniques powered by LLMs, covering its entire lifecycle from the following four aspects: (1) Model: Text-to-SQL translation techniques that tackle not only NL ambiguity and under-specification, but also properly map NL with database schema and instances; (2) Data: From the collection of training data, data synthesis due to training data scarcity, to Text-to-SQL benchmarks; (3) Evaluation: Evaluating Text-to-SQL methods from multiple angles using different metrics and granularities; and (4) Error Analysis: analyzing Text-to-SQL errors to find the root cause and guiding Text-to-SQL models to evolve. Moreover, we offer a rule of thumb for developing Text-to-SQL solutions. Finally, we discuss the research challenges and open problems of Text-to-SQL in the LLMs era.
Abstract（参考訳）: ユーザの自然言語クエリ(NL)をSQLクエリ(Text-to-SQL、別名NL2SQL)に変換することで、リレーショナルデータベースへのアクセスやさまざまな商用アプリケーションのサポートに対する障壁を大幅に減らすことができる。 Text-to-SQLのパフォーマンスは、LLM(Large Language Models)の出現によって大幅に向上した。モデル: NLの曖昧さと不明瞭さに対処するだけでなく、データベーススキーマやインスタンスにNLを適切にマッピングするデータ:トレーニングデータの収集、トレーニングデータの不足によるデータ合成、テキストからSQLのベンチマーク、評価:異なるメトリクスと粒度を使って複数の角度からテキストからSQLのメソッドを評価する評価、エラー分析: テキストからSQLのエラーを分析し、その根本原因を見つけ、テキストからSQLのモデルを進化させるためのガイダンス分析である。さらに、Text-to-SQLソリューションを開発するための親指のルールも提供します。最後に,LLM 時代における Text-to-SQL の研究課題とオープンな課題について論じる。

関連論文リスト

Exploring the Landscape of Text-to-SQL with Large Language Models: Progresses, Challenges and Opportunities [23.63038939411147]
大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野を著しく推進し、テキスト・ツー・リレーショナル・システムを改善するための新たな道を開いた。本研究では,4つの重要な側面に焦点をあてて,テキスト・ツー・リレーショナルの体系的レビューを行う。この調査は、LLMベースのテキスト・ツー・リレーショナルの深い理解に拍車をかけたもので、この分野の新たな革新と進歩を引き起こしている。
論文参考訳（メタデータ） (2025-05-28T13:23:38Z)
OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。 16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文参考訳（メタデータ） (2025-03-04T03:30:56Z)
Grounding Natural Language to SQL Translation with Data-Based Self-Explanations [7.4643285253289475]
Cycleは、エンドツーエンドの翻訳モデルのために設計されたフレームワークで、自己評価を通じて最適な出力を自律的に生成する。主な考え方は、データ基底のNL説明を自己提供のフィードバックとして導入し、そのフィードバックを使って翻訳の正確性を検証することである。その結果、1) サイクルで導入されたフィードバックループは既存のモデルの性能を一貫して改善することができ、特にRESDにCycleを適用することで、検証セットで82.0%(+2.6%)、テストセットベンチマークで81.6%(+3.2%)の翻訳精度が得られることがわかった。
論文参考訳（メタデータ） (2024-11-05T09:44:53Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
SQLfuse: Enhancing Text-to-SQL Performance through Comprehensive LLM Synergy [24.919119901664843]
本稿では,オープンソースのLarge Language Models(LLM)を,クエリの精度とユーザビリティを高めるための一連のツールに統合する,堅牢なシステムを提案する。 Ant GroupによるSpider Leaderboardとデプロイメントのリードパフォーマンスによって実証された。
論文参考訳（メタデータ） (2024-07-19T06:01:57Z)
Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL [15.75829309721909]
大規模言語モデル(LLM)は、モデルスケールが増大するにつれて、自然言語理解において重要な能力を示している。 LLMは、テキスト・ツー・リサーチにユニークな機会、改善、ソリューションをもたらすことができる。
論文参考訳（メタデータ） (2024-06-12T17:13:17Z)
PURPLE: Making a Large Language Model a Better SQL Writer [14.627323505405327]
NL2タスクに必要な論理演算子構成を含む実演を検索することで精度を向上させるPURPLEを提案する。 PURPLEは、一般的なNL2ベンチマークの検証セット上で80.5%の正確な一致精度と87.8%の実行一致精度という、最先端の新たなパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-03-29T07:01:29Z)
Data Transformation to Construct a Dataset for Generating Entity-Relationship Model from Natural Language [39.53954130028595]
ERモデルの手作業コストを削減するため,NL2ERMの課題に対処する手法が提案されている。これらのアプローチは通常、厳格なルールに依存するルールベースのアプローチである。ルールベースのアプローチよりも一般化が優れているにもかかわらず、大規模なデータセットが欠如しているため、ディープベースモデルはNL2ERMに欠けている。
論文参考訳（メタデータ） (2023-12-21T09:45:13Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
Interleaving Pre-Trained Language Models and Large Language Models for Zero-Shot NL2SQL Generation [23.519727682763644]
ZeroNL2は、新しい環境に適応する自然言語のtosqlの実現に不可欠である。既存のアプローチは、データに基づいた微調整事前学習言語モデル(PLM)か、ChatGPTのような固定された大言語モデル(LLM)をガイドするプロンプトを使用する。ゼロショットNL2をサポートするために, PLM と LLM の相補的な利点を組み合わせた ZeroNL2 フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-15T06:50:51Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T09:21:27Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
Relation Aware Semi-autoregressive Semantic Parsing for NL2SQL [17.605904256822786]
我々は,NL2のバックボーンに適応可能な,半自動意味解析(MODN)フレームワークを提案する。実験結果とケーススタディから,本モデルはNL2における単語表現の学習に有効であることを示す。
論文参考訳（メタデータ） (2021-08-02T12:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。