論文の概要: Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning
- arxiv url: http://arxiv.org/abs/2407.03227v2
- Date: Mon, 04 Nov 2024 12:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:03.129835
- Title: Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning
- Title(参考訳): ASTベースのランク付けとスキーマプルーニングによる検索強化テキスト-to-SQLの改善
- Authors: Zhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan,
- Abstract要約: 本稿では,テキストからセマンティックへの解析に注目する。
商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションのデプロイ可能性に関する課題から,入力データベース情報を動的に取得する $textASTReS$ を提案する。
- 参考スコア(独自算出の注目度): 10.731045939849125
- License:
- Abstract: We focus on Text-to-SQL semantic parsing from the perspective of retrieval-augmented generation. Motivated by challenges related to the size of commercial database schemata and the deployability of business intelligence solutions, we propose $\text{ASTReS}$ that dynamically retrieves input database information and uses abstract syntax trees to select few-shot examples for in-context learning. Furthermore, we investigate the extent to which an in-parallel semantic parser can be leveraged for generating approximated versions of the expected SQL queries, to support our retrieval. We take this approach to the extreme--we adapt a model consisting of less than $500$M parameters, to act as an extremely efficient approximator, enhancing it with the ability to process schemata in a parallelised manner. We apply $\text{ASTReS}$ to monolingual and cross-lingual benchmarks for semantic parsing, showing improvements over state-of-the-art baselines. Comprehensive experiments highlight the contribution of modules involved in this retrieval-augmented generation setting, revealing interesting directions for future work.
- Abstract(参考訳): 本稿では,テキストからSQLへのセマンティックパーシングに着目し,検索拡張生成の観点から考察する。
商用データベースのスキーマのサイズやビジネスインテリジェンスソリューションのデプロイ可能性に関わる課題から,入力データベース情報を動的に取得し,抽象構文木を用いてテキスト内学習の例をいくつか選択する$\text{ASTReS}$を提案する。
さらに,提案するSQLクエリの近似バージョンを生成するために並列セマンティックパーサが利用できる範囲について検討し,検索支援を行う。
我々は5億ドル未満のパラメータからなるモデルを極端に適用し、極めて効率的な近似器として機能し、並列化された方法でスキーマを処理できるように拡張する。
セマンティック解析のためのモノリンガルおよびクロスランガルベンチマークに$\text{ASTReS}$を適用し、最先端のベースラインの改善を示す。
総合的な実験は、この検索強化世代設定に関わるモジュールの貢献を強調し、今後の研究の興味深い方向性を明らかにしている。
関連論文リスト
- UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。
本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。
生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-05-13T04:59:32Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Pay More Attention to History: A Context Modeling Strategy for
Conversational Text-to-SQL [8.038535788630542]
会話型テキスト・ツー・ドメインの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化することである。
本稿では,各ターンの追加による意味変化の明示的モデル化とコンテキスト全体の要約により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。