論文の概要: ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries
- arxiv url: http://arxiv.org/abs/2010.09927v1
- Date: Mon, 19 Oct 2020 23:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:48:14.377017
- Title: ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries
- Title(参考訳): ColloQL: 検索クエリによるクロスドメインテキストからSQLへのロバスト
- Authors: Karthik Radhakrishnan, Arvind Srikantan, Xi Victoria Lin
- Abstract要約: データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
- 参考スコア(独自算出の注目度): 10.273545005890496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language utterances to executable queries is a helpful
technique in making the vast amount of data stored in relational databases
accessible to a wider range of non-tech-savvy end users. Prior work in this
area has largely focused on textual input that is linguistically correct and
semantically unambiguous. However, real-world user queries are often succinct,
colloquial, and noisy, resembling the input of a search engine. In this work,
we introduce data augmentation techniques and a sampling-based content-aware
BERT model (ColloQL) to achieve robust text-to-SQL modeling over natural
language search (NLS) questions. Due to the lack of evaluation data, we curate
a new dataset of NLS questions and demonstrate the efficacy of our approach.
ColloQL's superior performance extends to well-formed text, achieving 84.9%
(logical) and 90.7% (execution) accuracy on the WikiSQL dataset, making it, to
the best of our knowledge, the highest performing model that does not use
execution guided decoding.
- Abstract(参考訳): 自然言語発話を実行可能なクエリに変換することは、リレーショナルデータベースに格納された膨大なデータを、より幅広い非技術に精通したエンドユーザーにアクセスさせるのに役立つテクニックである。
この分野の先行研究は、言語的に正確で意味的に曖昧なテキスト入力に重点を置いてきた。
しかし、現実世界のユーザクエリは、検索エンジンの入力に類似した簡潔で口語的でノイズが多い。
本研究では,自然言語検索(NLS)問題に対する堅牢なテキスト-SQLモデリングを実現するために,データ拡張手法とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
評価データがないため、NLS質問の新しいデータセットをキュレートし、アプローチの有効性を実証する。
ColloQLの優れたパフォーマンスは、十分に整ったテキストにまで拡張され、WikiSQLデータセット上で84.9%(論理)と90.7%(実行)の精度を達成した。
関連論文リスト
- From Text to CQL: Bridging Natural Language and Corpus Search Engine [27.56738323943742]
コーパスクエリ言語(Corpus Query Language, CQL)は、テキストコーパス内の言語研究と詳細な分析のための重要なツールである。
本稿では,自然言語のCQLへの翻訳を自動化することを目的とした,最初のテキストからCQLへのタスクを提案する。
論文 参考訳(メタデータ) (2024-02-21T12:11:28Z) - SUQL: Conversational Search over Structured and Unstructured Data with
Large Language Models [7.347262319994813]
本稿では、SUQLと呼ばれる言語を用いて、大規模知識コーパスのためのハイブリッドデータアクセスの完全な汎用性をサポートする最初の対話エージェントを提案する。
線形化に基づくベースラインの63.4%とは対照的に,SUQLに基づく会話エージェントでは,すべてのユーザの要求を満たすエンティティが90.3%であることがわかった。
論文 参考訳(メタデータ) (2023-11-16T11:48:17Z) - Text-to-OverpassQL: A Natural Language Interface for Complex Geodata
Querying of OpenStreetMap [17.01783992725517]
OpenStreetMap (OSM)からジオデータをクエリするための自然言語インタフェースを容易にするタスクであるText-to-OverpassQLを提案する。
自然言語入力からOverpassクエリを生成することは、複数のユースケースに役立つ。
論文 参考訳(メタデータ) (2023-08-30T14:33:25Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。