Fugu-MT 論文翻訳(概要): Benchmarking and Improving Text-to-SQL Generation under Ambiguity

論文の概要: Benchmarking and Improving Text-to-SQL Generation under Ambiguity

arxiv url: http://arxiv.org/abs/2310.13659v1
Date: Fri, 20 Oct 2023 17:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 21:43:36.136050
Title: Benchmarking and Improving Text-to-SQL Generation under Ambiguity
Title（参考訳）: 曖昧さ下でのテキスト間SQL生成のベンチマークと改善
Authors: Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi
Abstract要約: 我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
参考スコア（独自算出の注目度）: 25.283118418288293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Research in Text-to-SQL conversion has been largely benchmarked against datasets where each text query corresponds to one correct SQL. However, natural language queries over real-life databases frequently involve significant ambiguity about the intended SQL due to overlapping schema names and multiple confusing relationship paths. To bridge this gap, we develop a novel benchmark called AmbiQT with over 3000 examples where each text is interpretable as two plausible SQLs due to lexical and/or structural ambiguity. When faced with ambiguity, an ideal top-$k$ decoder should generate all valid interpretations for possible disambiguation by the user. We evaluate several Text-to-SQL systems and decoding algorithms, including those employing state-of-the-art LLMs, and find them to be far from this ideal. The primary reason is that the prevalent beam search algorithm and its variants, treat SQL queries as a string and produce unhelpful token-level diversity in the top-$k$. We propose LogicalBeam, a new decoding algorithm that navigates the SQL logic space using a blend of plan-based template generation and constrained infilling. Counterfactually generated plans diversify templates while in-filling with a beam-search that branches solely on schema names provides value diversity. LogicalBeam is up to $2.5$ times more effective than state-of-the-art models at generating all candidate SQLs in the top-$k$ ranked outputs. It also enhances the top-$5$ Exact and Execution Match Accuracies on SPIDER and Kaggle DBQA.
Abstract（参考訳）: テキストからSQLへの変換の研究は、各テキストクエリが1つの正しいSQLに対応するデータセットに対して大きくベンチマークされている。しかし、実際のデータベース上の自然言語クエリには、スキーマ名と複数の混乱した関係パスが重複していることから、意図したsqlに対する曖昧さがしばしば伴う。このギャップを埋めるために、我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストが語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる3000以上の例を示した。曖昧さに直面した場合、理想のトップ$k$デコーダは、ユーザによる曖昧さの可能なすべての有効な解釈を生成する必要がある。我々は,最先端llmを使用するものを含む複数のテキスト対sqlシステムと復号アルゴリズムを評価し,その理想から程遠いものを見出す。主な理由は、一般的なビーム探索アルゴリズムとその変種がsqlクエリを文字列として扱い、上位$k$のトークンレベルの多様性を生み出しているためである。提案するLogicalBeamは,計画ベースのテンプレート生成と制約付き埋め込みを組み合わせたSQLロジック空間をナビゲートする,新しい復号アルゴリズムである。事実上生成されたプランは、スキーマ名のみに枝分かれするビームサーチで埋め込んだまま、テンプレートを多様化する。 LogicalBeamは、上位の$kの出力ですべての候補SQLを生成する際に、最先端のモデルよりも2.5ドル高い効果がある。また、SPIDERとKaggle DBQAの5$ Exact and Execution Match Accuraciesも強化されている。

関連論文リスト

SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas [2.905751301655124]
テキスト・ツー・ハブ・モデルを開発する上でのボトルネックは、十分なスキーマとクエリの複雑さ、ドメインカバレッジ、タスクの多様性を備えた大規模なデータセットが不足していることだ。実世界のスキーマコレクションであるPileから拡張された135,875のリレーショナルデータベーススキーマ上に構築された,大規模半合成のテキスト・ツー・ハグデータセットであるSQaLeを紹介した。 SQaLeは実行の妥当性を維持しながら、現実的なスキーマサイズ、多様なクエリパターン、自然言語の曖昧さをキャプチャする。
論文参考訳（メタデータ） (2025-12-16T09:15:10Z)
SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction [13.793886767052905]
In-context Learning と chain-of- Thought は、テキスト・トゥ・コンテクスト・システムのための堅牢なソリューションを開発するために利用することができる。本稿では,Text2タスクをスキーマリンク,サブプロブレム識別,クエリプラン生成,ガイド付き修正ループに分解するマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-30T18:27:12Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文参考訳（メタデータ） (2023-10-27T00:13:59Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文参考訳（メタデータ） (2023-04-26T06:02:01Z)
Know What I don't Know: Handling Ambiguous and Unanswerable Questions for Text-to-SQL [36.5089235153207]
既存のtext-to-Yourself は任意のユーザ質問に対して "plausible" クエリを生成する。本稿では,不明瞭かつ解決不可能な例を自動的に生成する,シンプルで効果的な生成手法を提案する。実験結果から,実例と生成例の両方において,本モデルが最も優れた結果が得られることが示された。
論文参考訳（メタデータ） (2022-12-17T15:32:00Z)
Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T09:21:27Z)
Improving Text-to-SQL Semantic Parsing with Fine-grained Query Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文参考訳（メタデータ） (2022-09-28T21:00:30Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)
S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文参考訳（メタデータ） (2022-03-14T09:49:15Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文参考訳（メタデータ） (2020-02-03T04:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。