論文の概要: Dubo-SQL: Diverse Retrieval-Augmented Generation and Fine Tuning for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2404.12560v1
- Date: Fri, 19 Apr 2024 00:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:34:43.277570
- Title: Dubo-SQL: Diverse Retrieval-Augmented Generation and Fine Tuning for Text-to-SQL
- Title(参考訳): Dubo-SQL: テキストからSQLへのさまざまな検索生成と微調整
- Authors: Dayton G. Thorpe, Andrew J. Duberstein, Ian A. Kinsey,
- Abstract要約: 自動化されたテキスト・トゥ・ザ・トップのための最新技術(SOTA)は遅くて高価である。
我々は,低コストな微調整,多種多様な検索拡張生成(RAG)のための新しい手法,新しい入力および出力形式の組み合わせについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current state-of-the-art (SOTA) for automated text-to-SQL still falls well short of expert human performance as measured by execution accuracy (EX) on the BIRD-SQL benchmark. The most accurate methods are also slow and expensive. To advance the SOTA for text-to-SQL while reducing cost and improving speed, we explore the combination of low-cost fine tuning, novel methods for diverse retrieval-augmented generation (RAG) and new input and output formats that help large language models (LLMs) achieve higher EX. We introduce two new methods, Dubo-SQL v1 and v2. Dubo-SQL v1 sets a new record for EX on the holdout test set of BIRD-SQL. Dubo-SQL v2 achieves even higher performance on the BIRD-SQL dev set. Dubo-SQL v1 relies on LLMs from OpenAI, but uses the low-cost GPT-3.5 Turbo while exceeding the performance of the next-best model using OpenAI, which instead uses the more expensive GPT-4. Dubo-SQL v1 exceeds the performance of the next-best model using GPT-3.5 by over 20%. Dubo-SQL v2 uses GPT-4 Turbo and RAG in place of fine tuning to push EX higher.
- Abstract(参考訳): BIRD-SQLベンチマークにおける実行精度(EX)によって測定されるように、テキストからSQLへの自動化のための現在の最先端(SOTA)は、まだ専門家によるパフォーマンスには劣っている。
最も正確な方法は遅くて高価である。
コスト削減と高速化を図りながら、テキストからSQLへのSOTAを高速化するために、低コストな微調整、多種多様な検索拡張生成(RAG)のための新しい手法、大規模言語モデル(LLM)がより高いEXを達成するのに役立つ新しい入力および出力フォーマットの組み合わせについて検討する。
Dubo-SQL v1とv2という2つの新しいメソッドを紹介します。
Dubo-SQL v1はBIRD-SQLのホールドアウトテストセットにEXの新しいレコードを設定する。
Dubo-SQL v2はBIRD-SQL開発セットでさらに高いパフォーマンスを達成する。
Dubo-SQL v1 は OpenAI の LLM に依存しているが、より高価な GPT-4 を使用する OpenAI を使用した次世代モデルの性能を上回りながら、低価格の GPT-3.5 Turbo を使用する。
Dubo-SQL v1は、GPT-3.5を使用した次世代モデルのパフォーマンスを20%以上上回る。
Dubo-SQL v2はGPT-4 TurboとRAGを微調整の代わりに使用し、EXをより高めている。
関連論文リスト
- SQL-o1: A Self-Reward Heuristic Dynamic Search Method for Text-to-SQL [11.713258980098296]
大規模言語モデル(LLM)の推論能力を高めるために,自己回帰に基づく探索手法を提案する。
私たちのコードは、https://github.com/ShuaiLyu01T-o1.comで公開されています。
論文 参考訳(メタデータ) (2025-02-17T12:28:11Z) - MCTS-SQL: An Effective Framework for Text-to-SQL with Monte Carlo Tree Search [3.521199751827158]
本稿では,自然言語クエリをデータベースクエリに変換する新しい手法を提案する。
我々はモンテカルロ木探索(MCTS)と自己精製機構を用いて精度と信頼性を向上させる。
実験の結果,MCTS-IDERは最先端の性能を達成できた。
論文 参考訳(メタデータ) (2025-01-28T00:52:23Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。