論文の概要: DocuT5: Seq2seq SQL Generation with Table Documentation
- arxiv url: http://arxiv.org/abs/2211.06193v1
- Date: Fri, 11 Nov 2022 13:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:14:09.980705
- Title: DocuT5: Seq2seq SQL Generation with Table Documentation
- Title(参考訳): DocuT5: テーブルドキュメンテーションを備えたSeq2seq SQL生成
- Authors: Elena Soare, Iain Mackie, Jeffrey Dalton
- Abstract要約: 我々は、新しいテキスト・ツー・タコノミーの失敗分類を開発し、19.6%のエラーが外国の重大な誤りによるものであることを発見した。
本研究では,(1)外部キーの表構造コンテキストから知識を抽出するDocuT5を提案する。
どちらのタイプの知識も、スパイダー上の制約付き復号化によって最先端のT5よりも改善され、ドメイン知識はスパイダーDKやスパイダーSYNのデータセットで最先端に匹敵する効果を生み出す。
- 参考スコア(独自算出の注目度): 5.586191108738563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current SQL generators based on pre-trained language models struggle to
answer complex questions requiring domain context or understanding fine-grained
table structure. Humans would deal with these unknowns by reasoning over the
documentation of the tables. Based on this hypothesis, we propose DocuT5, which
uses off-the-shelf language model architecture and injects knowledge from
external `documentation' to improve domain generalization. We perform
experiments on the Spider family of datasets that contain complex questions
that are cross-domain and multi-table. Specifically, we develop a new
text-to-SQL failure taxonomy and find that 19.6% of errors are due to foreign
key mistakes, and 49.2% are due to a lack of domain knowledge. We proposed
DocuT5, a method that captures knowledge from (1) table structure context of
foreign keys and (2) domain knowledge through contextualizing tables and
columns. Both types of knowledge improve over state-of-the-art T5 with
constrained decoding on Spider, and domain knowledge produces state-of-the-art
comparable effectiveness on Spider-DK and Spider-SYN datasets.
- Abstract(参考訳): 事前訓練された言語モデルに基づく現在のSQLジェネレータは、ドメインコンテキストを必要とする複雑な質問に答えたり、きめ細かいテーブル構造を理解するのに苦労しています。
人間はこれらの未知に対処し、テーブルのドキュメントを推論する。
この仮説に基づいて、既製の言語モデルアーキテクチャを使用し、ドメインの一般化を改善するために外部のドキュメントから知識を注入するDocuT5を提案する。
我々は、クロスドメインでマルチテーブルな複雑な質問を含むデータセットのスパイダーファミリーで実験を行う。
具体的には、新しいテキストからSQLへの障害分類を開発し、19.6%のエラーは外国のキーミスによるもので、49.2%はドメイン知識の欠如によるものである。
我々は,(1)外部キーの表構造コンテキストから知識を取り込むdocut5と,(2)表と列のコンテキスト化を通じてドメイン知識を取得するdocut5を提案する。
どちらのタイプの知識もクモ上の制限されたデコードによって最先端のt5よりも改善され、ドメイン知識はスパイダーdkとスパイダーシンデータセットで最先端の同等な効果を生み出す。
関連論文リスト
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - Domain Adaptation of a State of the Art Text-to-SQL Model: Lessons
Learned and Challenges Found [1.9963385352536616]
我々は、ベースとなるT5言語モデルとPicardが、Spiderデータセットとは異なるクエリ構造でどれだけうまく機能するかを分析する。
本稿では,ルールベースの手法を用いて,入力問題における値の曖昧化を行う方法を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:30:21Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - QURG: Question Rewriting Guided Context-Dependent Text-to-SQL Semantic
Parsing [46.05006486399823]
本稿では,モデルが適切な文脈理解を実現するのに役立つ新しい質問書き直し指導手法であるQURGを提案する。
まず、質問コンテキストに基づいて現在の質問を完了させるために質問書き換えモデルを訓練し、それらを書き換え編集行列に変換する。
さらに、2ストリームの行列エンコーダを設計し、質問とコンテキスト間の書き直し関係と、自然言語と構造化スキーマの関係をリンクするスキーマを共同でモデル化する。
論文 参考訳(メタデータ) (2023-05-11T08:45:55Z) - Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic
Knowledge [54.85168428642474]
我々は、さまざまなドメインをカバーするドメイン固有の質問からなる新しい中国のベンチマークKnowを構築した。
次に、付加的なデータ例に注釈を付けるのではなく、公式知識を提示することでこの問題に対処する。
より具体的には、ドメイン知識基盤として定式的知識バンクを構築し、解析中にこの定式的知識を活用するためのフレームワーク(ReGrouP)を提案する。
論文 参考訳(メタデータ) (2023-01-03T12:37:47Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - Prefix-to-SQL: Text-to-SQL Generation from Incomplete User Questions [33.48258057604425]
本稿では,ユーザから質問文を入力として取り出して,意図したsqlを予測する,新しいタスクであるPremction-to-Queryを提案する。
我々はPAGSASと呼ばれる新しいベンチマークを構築し、124Kのユーザ質問プレフィックスと5つのサブタスクのアドバイス、GeoQuery、Scholar、ATIS、Spiderを含む。
省略トークンの数にプレフィックス・ツー・クエリの難しさが関係しているのを観察するため,サンプルの摂食に関するカリキュラム学習と,省略トークンの数の増加について考察する。
論文 参考訳(メタデータ) (2021-09-15T14:28:18Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。