Fugu-MT 論文翻訳(概要): Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

論文の概要: Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

arxiv url: http://arxiv.org/abs/2403.02951v2
Date: Wed, 6 Mar 2024 08:43:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 11:50:28.955360
Title: Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation
Title（参考訳）: 大規模言語モデルのテキスト-SQL能力のベンチマーク:包括的評価
Authors: Bin Zhang, Yuxiao Ye, Guoqing Du, Xiaoru Hu, Zhishuai Li, Sun Yang, Chi Harold Liu, Rui Zhao, Ziyue Li, Hangyu Mao
Abstract要約: 大規模言語モデル(LLM)は、テキストからタスクへ進むための強力なツールとして登場した。最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。既存のベンチマークでは、テキスト・ツー・プロセスの様々なサブタスクにまたがるLCMのパフォーマンスが不十分である。
参考スコア（独自算出の注目度）: 33.41556606816004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have emerged as a powerful tool in advancing the Text-to-SQL task, significantly outperforming traditional methods. Nevertheless, as a nascent research field, there is still no consensus on the optimal prompt templates and design frameworks. Additionally, existing benchmarks inadequately explore the performance of LLMs across the various sub-tasks of the Text-to-SQL process, which hinders the assessment of LLMs' cognitive capabilities and the optimization of LLM-based solutions. To address the aforementioned issues, we firstly construct a new dataset designed to mitigate the risk of overfitting in LLMs. Then we formulate five evaluation tasks to comprehensively assess the performance of diverse methods across various LLMs throughout the Text-to-SQL process.Our study highlights the performance disparities among LLMs and proposes optimal in-context learning solutions tailored to each task. These findings offer valuable insights for enhancing the development of LLM-based Text-to-SQL systems.
Abstract（参考訳）: 大規模言語モデル(llm)は、テキストからsqlへのタスクを進めるための強力なツールとして登場し、従来の方法を大きく上回っている。しかし、初期の研究分野として、最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。さらに、既存のベンチマークでは、LLMの認知能力の評価やLLMベースのソリューションの最適化を妨げているText-to-SQLプロセスの様々なサブタスクにわたるLCMのパフォーマンスを不適切に調査している。上記の問題に対処するため、まずLLMにおける過度適合のリスクを軽減するために設計された新しいデータセットを構築する。そこで本研究では,テキスト・トゥ・SQLプロセスを通じて多種多様なメソッドのパフォーマンスを総合的に評価する5つの評価タスクを定式化し,各タスクに適した最適テキスト内学習ソリューションを提案する。これらの知見は LLM ベースの Text-to-SQL システムの開発を促進する上で貴重な洞察を与える。

関連論文リスト

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文参考訳（メタデータ） (2025-10-13T01:29:54Z)
An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL [42.019659095480726]
我々は,オープンソースのText2用LLMの包括的機能を改善するために,RObust mUltitask Tuning and collaboration mEthod (ROUTE)を提案する。提案手法は,tosql生成に関する各種合成トレーニングデータを用いて,マルチタスク制御ファインチューニング(SFT)から始める。また,マルチタスク・コラボレーション・プロンプティング(MCP)戦略を導入し,スクル生成時の幻覚を低減する。
論文参考訳（メタデータ） (2024-12-13T13:41:18Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems [1.1060425537315088]
この調査は、LLMベースのテキスト・ツー・スカルシステムの進化に関する包括的研究を提供する。ベンチマーク、評価方法、評価指標について議論する。効率性、モデルプライバシ、データプライバシといった重要な課題を、その開発と潜在的な領域の改善の観点から強調する。
論文参考訳（メタデータ） (2024-10-01T20:46:25Z)
PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文参考訳（メタデータ） (2024-09-21T09:33:14Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm [19.06214756792692]
大規模言語モデル(LLM)の文脈内学習は自然言語処理の分野で大きな成功を収めている。ケーススタディでは、一段階のチェーン・オブ・シントアプローチが、テキスト・トゥ・コレクションのような複雑なタスクにおける注意拡散や不適切なパフォーマンスといった課題に直面していることが明らかになった。分解によりLLMの注目度と問題解決範囲を高めることを目的としたワークフローパラダイムを提案する。
論文参考訳（メタデータ） (2024-02-16T13:24:05Z)
Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文参考訳（メタデータ） (2023-08-29T14:59:54Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A Study on Prompt Design Strategies [20.15851744895469]
In-context Learning (ICL) は、様々な自然言語処理タスクに対する新しいアプローチとして登場した。本稿では,構造化知識源を利用した解答課題を問うために,この手法を拡張することを目的とする。
論文参考訳（メタデータ） (2023-05-21T22:44:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。