論文の概要: Benchmarking and Improving Text-to-SQL Generation under Ambiguity
- arxiv url: http://arxiv.org/abs/2310.13659v1
- Date: Fri, 20 Oct 2023 17:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:43:36.136050
- Title: Benchmarking and Improving Text-to-SQL Generation under Ambiguity
- Title(参考訳): 曖昧さ下でのテキスト間SQL生成のベンチマークと改善
- Authors: Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi
- Abstract要約: 我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
- 参考スコア(独自算出の注目度): 25.283118418288293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in Text-to-SQL conversion has been largely benchmarked against
datasets where each text query corresponds to one correct SQL. However, natural
language queries over real-life databases frequently involve significant
ambiguity about the intended SQL due to overlapping schema names and multiple
confusing relationship paths. To bridge this gap, we develop a novel benchmark
called AmbiQT with over 3000 examples where each text is interpretable as two
plausible SQLs due to lexical and/or structural ambiguity.
When faced with ambiguity, an ideal top-$k$ decoder should generate all valid
interpretations for possible disambiguation by the user. We evaluate several
Text-to-SQL systems and decoding algorithms, including those employing
state-of-the-art LLMs, and find them to be far from this ideal. The primary
reason is that the prevalent beam search algorithm and its variants, treat SQL
queries as a string and produce unhelpful token-level diversity in the top-$k$.
We propose LogicalBeam, a new decoding algorithm that navigates the SQL logic
space using a blend of plan-based template generation and constrained
infilling. Counterfactually generated plans diversify templates while
in-filling with a beam-search that branches solely on schema names provides
value diversity. LogicalBeam is up to $2.5$ times more effective than
state-of-the-art models at generating all candidate SQLs in the top-$k$ ranked
outputs. It also enhances the top-$5$ Exact and Execution Match Accuracies on
SPIDER and Kaggle DBQA.
- Abstract(参考訳): テキストからSQLへの変換の研究は、各テキストクエリが1つの正しいSQLに対応するデータセットに対して大きくベンチマークされている。
しかし、実際のデータベース上の自然言語クエリには、スキーマ名と複数の混乱した関係パスが重複していることから、意図したsqlに対する曖昧さがしばしば伴う。
このギャップを埋めるために、我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストが語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる3000以上の例を示した。
曖昧さに直面した場合、理想のトップ$k$デコーダは、ユーザによる曖昧さの可能なすべての有効な解釈を生成する必要がある。
我々は,最先端llmを使用するものを含む複数のテキスト対sqlシステムと復号アルゴリズムを評価し,その理想から程遠いものを見出す。
主な理由は、一般的なビーム探索アルゴリズムとその変種がsqlクエリを文字列として扱い、上位$k$のトークンレベルの多様性を生み出しているためである。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付き埋め込みを組み合わせたSQLロジック空間をナビゲートする,新しい復号アルゴリズムである。
事実上生成されたプランは、スキーマ名のみに枝分かれするビームサーチで埋め込んだまま、テンプレートを多様化する。
LogicalBeamは、上位の$kの出力ですべての候補SQLを生成する際に、最先端のモデルよりも2.5ドル高い効果がある。
また、SPIDERとKaggle DBQAの5$ Exact and Execution Match Accuraciesも強化されている。
関連論文リスト
- SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。
我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文 参考訳(メタデータ) (2023-10-27T00:13:59Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - Know What I don't Know: Handling Ambiguous and Unanswerable Questions
for Text-to-SQL [36.5089235153207]
既存のtext-to-Yourself は任意のユーザ質問に対して "plausible" クエリを生成する。
本稿では,不明瞭かつ解決不可能な例を自動的に生成する,シンプルで効果的な生成手法を提案する。
実験結果から,実例と生成例の両方において,本モデルが最も優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-17T15:32:00Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。