論文の概要: Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack
Exchange Data
- arxiv url: http://arxiv.org/abs/2106.05006v1
- Date: Wed, 9 Jun 2021 12:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:12:43.313454
- Title: Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack
Exchange Data
- Title(参考訳): 野生におけるテキストからSQL:スタック交換データに基づく自然発生データセット
- Authors: Moshe Hazoom, Vibhor Malik and Ben Bogin
- Abstract要約: SEDEは12,023対の発話とsqlクエリを備えたデータセットである。
これらのペアには、他のセマンティック解析データセットにはほとんど反映されていない、さまざまな現実的な課題が含まれていることが示されています。
- 参考スコア(独自算出の注目度): 3.06261471569622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most available semantic parsing datasets, comprising of pairs of natural
utterances and logical forms, were collected solely for the purpose of training
and evaluation of natural language understanding systems. As a result, they do
not contain any of the richness and variety of natural-occurring utterances,
where humans ask about data they need or are curious about. In this work, we
release SEDE, a dataset with 12,023 pairs of utterances and SQL queries
collected from real usage on the Stack Exchange website. We show that these
pairs contain a variety of real-world challenges which were rarely reflected so
far in any other semantic parsing dataset, propose an evaluation metric based
on comparison of partial query clauses that is more suitable for real-world
queries, and conduct experiments with strong baselines, showing a large gap
between the performance on SEDE compared to other common datasets.
- Abstract(参考訳): 自然言語理解システムの訓練と評価のためだけに,自然発話と論理形態のペアからなる,最も利用可能な意味構文解析データセットが収集された。
結果として、人間が必要とするデータや興味のあるデータについて尋ねる自然な発話の豊かさや多様性は一切含まない。
本研究では,Stack ExchangeのWebサイトで実際の使用状況から収集した12,023対の発話とSQLクエリを備えたデータセットであるSEDEをリリースする。
これらのペアには、他のセマンティック解析データセットにはほとんど反映されていない様々な現実的課題が含まれており、実世界のクエリにより適した部分的クエリ節の比較に基づく評価基準を提案し、SEDEの性能と他の一般的なデータセットとの差が大きいことを示す。
関連論文リスト
- Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - xDBTagger: Explainable Natural Language Interface to Databases Using
Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。
我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。
xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文 参考訳(メタデータ) (2022-10-07T18:17:09Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。
テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文 参考訳(メタデータ) (2021-04-15T00:31:10Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。