論文の概要: Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning
- arxiv url: http://arxiv.org/abs/2407.03227v1
- Date: Wed, 3 Jul 2024 15:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:27:21.163326
- Title: Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning
- Title(参考訳): ASTベースのランク付けとスキーマプルーニングによる検索強化テキスト-to-SQLの改善
- Authors: Zhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan,
- Abstract要約: 我々は,大規模言語モデルの観点から,テキストからテキストへのセマンティックパーシングに注目した。
商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションの展開性に関する課題から,入力データベース情報を動的に取得するアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.731045939849125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We focus on Text-to-SQL semantic parsing from the perspective of Large Language Models. Motivated by challenges related to the size of commercial database schemata and the deployability of business intelligence solutions, we propose an approach that dynamically retrieves input database information and uses abstract syntax trees to select few-shot examples for in-context learning. Furthermore, we investigate the extent to which an in-parallel semantic parser can be leveraged for generating $\textit{approximated}$ versions of the expected SQL queries, to support our retrieval. We take this approach to the extreme--we adapt a model consisting of less than $500$M parameters, to act as an extremely efficient approximator, enhancing it with the ability to process schemata in a parallelised manner. We apply our approach to monolingual and cross-lingual benchmarks for semantic parsing, showing improvements over state-of-the-art baselines. Comprehensive experiments highlight the contribution of modules involved in this retrieval-augmented generation setting, revealing interesting directions for future work.
- Abstract(参考訳): 我々は,大規模言語モデルの観点から,テキストからSQLへのセマンティックパーシングに注目した。
商用データベーススキーマのサイズやビジネスインテリジェンスソリューションの展開可能性に関わる課題から,入力データベース情報を動的に取得し,抽象構文木を用いてテキスト内学習の例を少数選択する手法を提案する。
さらに、並列セマンティックパーサが$\textit{approximated}$バージョンのSQLクエリを生成できる範囲を調査し、検索をサポートする。
我々は5億ドル未満のパラメータからなるモデルを極端に適用し、極めて効率的な近似器として機能し、並列化された方法でスキーマを処理できるように拡張する。
セマンティック解析のためのモノリンガルとクロスランガルのベンチマークにアプローチを適用し、最先端のベースラインよりも改善したことを示す。
総合的な実験は、この検索強化世代設定に関わるモジュールの貢献を強調し、今後の研究の興味深い方向性を明らかにしている。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Rationalization Models for Text-to-SQL [13.792561265515003]
本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。
プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。
その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-02-10T18:38:57Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。
本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。
生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-05-13T04:59:32Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。