論文の概要: SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset
- arxiv url: http://arxiv.org/abs/2208.12711v1
- Date: Fri, 26 Aug 2022 15:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:55:50.711731
- Title: SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset
- Title(参考訳): SeSQL:さらに大規模なセッションレベルの中国のテキスト-SQLデータセット
- Authors: Saihao Huang, Lijie Wang, Zhenghua Li, Zeyang Liu, Chenhui Dou, Fukang
Yan, Xinyan Xiao, Hua Wu, Min Zhang
- Abstract要約: CHASEには、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語から翻訳された3,456セッション(CHASE-T)が含まれている。
この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。
本研究では,5,028のセッションをスクラッチから手作業で構築した,さらに大規模なセッションレベルのテキスト・ツー・パースデータセットであるSeを中国語で紹介する。
- 参考スコア(独自算出の注目度): 39.78074639729293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the first session-level Chinese dataset, CHASE contains two separate
parts, i.e., 2,003 sessions manually constructed from scratch (CHASE-C), and
3,456 sessions translated from English SParC (CHASE-T). We find the two parts
are highly discrepant and incompatible as training and evaluation data. In this
work, we present SeSQL, yet another large-scale session-level text-to-SQL
dataset in Chinese, consisting of 5,028 sessions all manually constructed from
scratch. In order to guarantee data quality, we adopt an iterative annotation
workflow to facilitate intense and in-time review of previous-round natural
language (NL) questions and SQL queries. Moreover, by completing all
context-dependent NL questions, we obtain 27,012 context-independent
question/SQL pairs, allowing SeSQL to be used as the largest dataset for
single-round multi-DB text-to-SQL parsing. We conduct benchmark session-level
text-to-SQL parsing experiments on SeSQL by employing three competitive
session-level parsers, and present detailed analysis.
- Abstract(参考訳): 最初のセッションレベルの中国語データセットとして、CHASEは、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語のSParC(CHASE-T)から翻訳された3,456セッションの2つの別々の部分を含んでいる。
この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。
本研究では,5,028セッションをすべてスクラッチから手作業で構築した,さらに大規模なセッションレベルのSQLデータセットであるSeSQLを紹介する。
データ品質を保証するため、我々は反復的なアノテーションワークフローを採用し、これまでの自然言語(NL)質問やSQLクエリの厳密でリアルタイムなレビューを容易にする。
さらに、コンテキスト依存のNL質問を全て完了することで、コンテキスト依存の27,012の質問/SQLペアを取得し、SeSQLをシングルラウンドのマルチDBテキスト-SQL解析のための最大のデータセットとして使用できる。
本稿では,3つの競合するセッションレベルのパーサを用いて,SeSQL上でセッションレベルのテキスト-SQL解析実験をベンチマークし,詳細な分析を行う。
関連論文リスト
- SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset [40.43236560948185]
そこで本研究では,大規模なCrosS- Chinese text-to-hugging データセットについて述べる。
CSSは当初、2つのデータベースにまたがる4,340対の質問ペアで構成されていた。
異なる医療システムにモデルを一般化するために、19の新しいデータベースと29,280のサンプルを作成します。
論文 参考訳(メタデータ) (2023-05-25T09:44:44Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。