論文の概要: Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco
vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison
- arxiv url: http://arxiv.org/abs/2310.10190v1
- Date: Mon, 16 Oct 2023 08:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:40:31.549134
- Title: Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco
vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison
- Title(参考訳): 大規模言語モデルの戦い: dolly vs llama vs vicuna vs guanaco vs bard vs chatgpt - テキストからsqlへのパース比較
- Authors: Shuo Sun, Yuchen Zhang, Jiahuan Yan, Yuze Gao, Donovan Ong, Bin Chen,
Jian Su
- Abstract要約: 近年、GPT-3.5やGPT-4に近い性能を主張するモデルが多数出現している。
人気の高い6つの大言語モデルを互いに比較し、9つのベンチマークデータセットでテキスト対パース機能を体系的に評価します。
オープンソースモデルはGPT-3.5のようなクローズドソースモデルによって達成された性能を著しく低下させ、これらのモデル間のパフォーマンスギャップを埋めるためのさらなる作業の必要性を強調した。
- 参考スコア(独自算出の注目度): 18.092211166785397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of ChatGPT has ignited an AI race, with researchers striving to
develop new large language models (LLMs) that can match or surpass the language
understanding and generation abilities of commercial ones. In recent times, a
number of models have emerged, claiming performance near that of GPT-3.5 or
GPT-4 through various instruction-tuning methods. As practitioners of
Text-to-SQL parsing, we are grateful for their valuable contributions to
open-source research. However, it is important to approach these claims with a
sense of scrutiny and ascertain the actual effectiveness of these models.
Therefore, we pit six popular large language models against each other,
systematically evaluating their Text-to-SQL parsing capability on nine
benchmark datasets with five different prompting strategies, covering both
zero-shot and few-shot scenarios. Regrettably, the open-sourced models fell
significantly short of the performance achieved by closed-source models like
GPT-3.5, highlighting the need for further work to bridge the performance gap
between these models.
- Abstract(参考訳): ChatGPTの成功はAI競争に火をつけ、研究者は商用言語における言語理解と生成能力に適合または超えるような、新しい大規模言語モデル(LLM)の開発を目指している。
近年、GPT-3.5やGPT-4に近い性能を様々な命令チューニング手法で主張するモデルが多数出現している。
テキストからsqlへのパースの実践者として、オープンソース研究への貴重な貢献に感謝しています。
しかし、これらの主張に精査してアプローチし、これらのモデルの実効性を確認することが重要である。
そこで我々は,5種類のプロンプト戦略を持つ9つのベンチマークデータセット上で,テキストからsqlへのパース機能を体系的に評価し,ゼロショットと少数ショットの両方のシナリオをカバーする。
オープンソースモデルはGPT-3.5のようなクローズドソースモデルによって達成された性能を著しく低下させ、これらのモデル間のパフォーマンスギャップを埋めるためのさらなる作業の必要性を強調した。
関連論文リスト
- MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation [10.205010004198757]
テキスト・ツー・ジェネレーションは、非専門家が自然言語でデータベースと対話することを可能にする。
GPT-4のような大規模クローズドソースモデルの最近の進歩は、アクセシビリティ、プライバシ、レイテンシの課題を提示している。
我々は、小型で効率的でオープンソースのテキスト・ツー・ジェネレーション・モデルの開発に注力する。
論文 参考訳(メタデータ) (2024-10-16T18:03:24Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - Large Language Models as Zero-shot Dialogue State Tracker through Function Calling [42.00097476584174]
本稿では,大言語モデル(LLM)を用いた対話状態追跡の関数呼び出しによる解法を提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,オープン・ソースとプロプライエタリ・LLMの両面において,極めて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-16T06:13:18Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability [57.71052396828714]
本稿では,ChatGPTのテキスト・トゥ・アビリティの最初の包括的分析について述べる。
異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行った。
現在のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、ChatGPTのパフォーマンスは印象的だ。
論文 参考訳(メタデータ) (2023-03-12T04:22:01Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。