論文の概要: A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability
- arxiv url: http://arxiv.org/abs/2303.13547v1
- Date: Sun, 12 Mar 2023 04:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:26:50.312793
- Title: A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability
- Title(参考訳): ChatGPTのゼロショットテキスト・トゥ・SQL機能に関する総合評価
- Authors: Aiwei Liu, Xuming Hu, Lijie Wen, Philip S. Yu
- Abstract要約: 本稿では,ChatGPTのテキスト・トゥ・アビリティの最初の包括的分析について述べる。
異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行った。
現在のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、ChatGPTのパフォーマンスは印象的だ。
- 参考スコア(独自算出の注目度): 57.71052396828714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first comprehensive analysis of ChatGPT's Text-to-SQL
ability. Given the recent emergence of large-scale conversational language
model ChatGPT and its impressive capabilities in both conversational abilities
and code generation, we sought to evaluate its Text-to-SQL performance. We
conducted experiments on 12 benchmark datasets with different languages,
settings, or scenarios, and the results demonstrate that ChatGPT has strong
text-to-SQL abilities. Although there is still a gap from the current
state-of-the-art (SOTA) model performance, considering that the experiment was
conducted in a zero-shot scenario, ChatGPT's performance is still impressive.
Notably, in the ADVETA (RPL) scenario, the zero-shot ChatGPT even outperforms
the SOTA model that requires fine-tuning on the Spider dataset by 4.1\%,
demonstrating its potential for use in practical applications. To support
further research in related fields, we have made the data generated by ChatGPT
publicly available at https://github.com/THU-BPM/chatgpt-sql.
- Abstract(参考訳): 本稿では,ChatGPT の Text-to-SQL 能力の包括的解析を行った。
大規模な対話型言語モデルChatGPTの出現と,会話能力とコード生成の両面での優れた能力を考えると,テキスト・トゥ・SQLのパフォーマンスを評価することを試みた。
我々は、異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行い、その結果、ChatGPTが強いテキスト-SQL機能を持つことを示した。
現状のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、実験がゼロショットシナリオで行われたことを考えると、ChatGPTのパフォーマンスは印象的だ。
特に、adveta (rpl) のシナリオでは、zero-shot chatgpt はスパイダーデータセットの微調整を必要とする sota モデルよりも4.1\%優れており、実用用途での使用の可能性を示している。
関連分野のさらなる研究を支援するため、ChatGPTが生成したデータをhttps://github.com/THU-BPM/chatgpt-sql.comで公開しました。
関連論文リスト
- Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco
vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison [18.092211166785397]
近年、GPT-3.5やGPT-4に近い性能を主張するモデルが多数出現している。
人気の高い6つの大言語モデルを互いに比較し、9つのベンチマークデータセットでテキスト対パース機能を体系的に評価します。
オープンソースモデルはGPT-3.5のようなクローズドソースモデルによって達成された性能を著しく低下させ、これらのモデル間のパフォーマンスギャップを埋めるためのさらなる作業の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-16T08:52:41Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - Evaluating ChatGPT's Information Extraction Capabilities: An Assessment
of Performance, Explainability, Calibration, and Faithfulness [18.945934162722466]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。
標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。
ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文 参考訳(メタデータ) (2023-04-23T12:33:18Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。