論文の概要: CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset
- arxiv url: http://arxiv.org/abs/2305.15891v1
- Date: Thu, 25 May 2023 09:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:07:41.902812
- Title: CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset
- Title(参考訳): CSS: 大規模なクロススキーマ中国のテキスト-SQL医療データセット
- Authors: Hanchong Zhang, Jieyu Li, Lu Chen, Ruisheng Cao, Yunyan Zhang, Yu
Huang, Yefeng Zheng, Kai Yu
- Abstract要約: そこで本研究では,大規模なCrosS- Chinese text-to-hugging データセットについて述べる。
CSSは当初、2つのデータベースにまたがる4,340対の質問ペアで構成されていた。
異なる医療システムにモデルを一般化するために、19の新しいデータベースと29,280のサンプルを作成します。
- 参考スコア(独自算出の注目度): 40.43236560948185
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The cross-domain text-to-SQL task aims to build a system that can parse user
questions into SQL on complete unseen databases, and the single-domain
text-to-SQL task evaluates the performance on identical databases. Both of
these setups confront unavoidable difficulties in real-world applications. To
this end, we introduce the cross-schema text-to-SQL task, where the databases
of evaluation data are different from that in the training data but come from
the same domain. Furthermore, we present CSS, a large-scale CrosS-Schema
Chinese text-to-SQL dataset, to carry on corresponding studies. CSS originally
consisted of 4,340 question/SQL pairs across 2 databases. In order to
generalize models to different medical systems, we extend CSS and create 19 new
databases along with 29,280 corresponding dataset examples. Moreover, CSS is
also a large corpus for single-domain Chinese text-to-SQL studies. We present
the data collection approach and a series of analyses of the data statistics.
To show the potential and usefulness of CSS, benchmarking baselines have been
conducted and reported. Our dataset is publicly available at
\url{https://huggingface.co/datasets/zhanghanchong/css}.
- Abstract(参考訳): クロスドメインのテキスト・トゥ・SQLタスクは、完全に見えないデータベース上でユーザ質問をSQLに解析できるシステムを構築することを目的としており、単一ドメインのテキスト・トゥ・SQLタスクは同一データベースのパフォーマンスを評価する。
これら2つのセットアップは、現実のアプリケーションでは避けられない困難に直面します。
この目的のために,評価データのデータベースとトレーニングデータのデータベースは異なるが,同じドメインから来るクロススキーマのテキストからsqlへのタスクを導入する。
さらに,大規模なCrosS-Schema中国語テキスト-SQLデータセットであるCSSについて,対応する研究を行う。
CSSは当初、2つのデータベースにまたがる4,340の質問/SQLペアで構成されていた。
モデルを異なる医療システムに一般化するために、cssを拡張し、対応するデータセット例29,280とともに19の新しいデータベースを作成します。
さらにCSSは、単一ドメインの中国語テキスト-SQL研究のための大きなコーパスでもある。
本稿では,データ収集手法とデータ統計の一連の分析について述べる。
CSSの可能性と有用性を示すため、ベンチマークベースラインが実施され、報告されている。
我々のデータセットは \url{https://huggingface.co/datasets/zhangchong/css} で公開されています。
関連論文リスト
- UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset [39.78074639729293]
CHASEには、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語から翻訳された3,456セッション(CHASE-T)が含まれている。
この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。
本研究では,5,028のセッションをスクラッチから手作業で構築した,さらに大規模なセッションレベルのテキスト・ツー・パースデータセットであるSeを中国語で紹介する。
論文 参考訳(メタデータ) (2022-08-26T15:11:10Z) - Data Augmentation with Hierarchical SQL-to-Question Generation for
Cross-domain Text-to-SQL Parsing [40.65143087243074]
本稿では,単純なデータ拡張フレームワークを提案する。
まず、データベースを与えられたら、抽象構文木文法citeyintranxに基づいて大量のsqlクエリを自動的に生成します。
第2に,高品質自然言語問題を得るための階層的sql-to-question生成モデルを提案する。
論文 参考訳(メタデータ) (2021-03-03T07:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。