論文の概要: Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense
and Hypothetical Reasoning
- arxiv url: http://arxiv.org/abs/2402.12554v2
- Date: Sun, 25 Feb 2024 00:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:44:15.043237
- Title: Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense
and Hypothetical Reasoning
- Title(参考訳): Archer: 算術的,常識的,仮説的推論を備えた人間ラベルのテキスト-SQLデータセット
- Authors: Danna Zheng, Mirella Lapata, Jeff Z. Pan
- Abstract要約: このデータセットは、既存の公開データセットと比較して、はるかに高い複雑さを示している。
アーチャーは現在の最先端モデルの能力に挑戦し、スパイダーのリーダーボードの上位モデルはアーチャーのテストセットで6.73%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 67.7258569181669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Archer, a challenging bilingual text-to-SQL dataset specific to
complex reasoning, including arithmetic, commonsense and hypothetical
reasoning. It contains 1,042 English questions and 1,042 Chinese questions,
along with 521 unique SQL queries, covering 20 English databases across 20
domains. Notably, this dataset demonstrates a significantly higher level of
complexity compared to existing publicly available datasets. Our evaluation
shows that Archer challenges the capabilities of current state-of-the-art
models, with a high-ranked model on the Spider leaderboard achieving only 6.73%
execution accuracy on Archer test set. Thus, Archer presents a significant
challenge for future research in this field.
- Abstract(参考訳): Archerは、算術、常識、仮説推論を含む複雑な推論に特有な、二言語からSQLへの挑戦的なデータセットである。
1,042の英語質問と1,042の中国語質問に加えて、521のユニークなSQLクエリがあり、20のドメインにわたる20の英語データベースを含んでいる。
このデータセットは、既存の公開データセットと比較して、はるかに高い複雑さを示している。
評価の結果、アーチャーは現在の最先端モデルの能力に挑戦し、スパイダー・リーダーボードの上位モデルではアーチャーテストセットの実行精度は6.73%に過ぎなかった。
したがって、アーチャーはこの分野で将来の研究に重要な課題を提示している。
関連論文リスト
- INQUIRE: A Natural World Text-to-Image Retrieval Benchmark [51.823709631153946]
InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
InQUIREには、iNaturalist 2024(iNat24)、500万の自然界の画像の新しいデータセット、250のエキスパートレベルの検索クエリが含まれている。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
論文 参考訳(メタデータ) (2024-11-04T19:16:53Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale
and High Quality [42.246771022648765]
提案するCATSは,大規模かつ高品質な中国語応答列データセットである。
このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。
2つのハイブリッド知識リソースのための共同符号化空間を確立するための統一グラフ変換手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T12:02:26Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - Possible Stories: Evaluating Situated Commonsense Reasoning under
Multiple Possible Scenarios [8.553766123004682]
本研究は,複数の質問に対して,候補解と同じ結末の集合を問うことで,この課題を補足するものである。
私たちのデータセットは、英語の1.3Kストーリーテキストよりも4.5K以上の質問で構成されています。
論文 参考訳(メタデータ) (2022-09-16T07:38:51Z) - Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack
Exchange Data [3.06261471569622]
SEDEは12,023対の発話とsqlクエリを備えたデータセットである。
これらのペアには、他のセマンティック解析データセットにはほとんど反映されていない、さまざまな現実的な課題が含まれていることが示されています。
論文 参考訳(メタデータ) (2021-06-09T12:09:51Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。