論文の概要: REFORMER: A ChatGPT-Driven Data Synthesis Framework Elevating Text-to-SQL Models
- arxiv url: http://arxiv.org/abs/2504.04363v1
- Date: Sun, 06 Apr 2025 05:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:05.292706
- Title: REFORMER: A ChatGPT-Driven Data Synthesis Framework Elevating Text-to-SQL Models
- Title(参考訳): Reformer: テキストからSQLモデルを取得するChatGPT駆動のデータ合成フレームワーク
- Authors: Shenyang Liu, Saleh Almohaimeed, Liqiang Wang,
- Abstract要約: 本稿では,ChatGPTの能力を活用するフレームワークであるREFORMERを提案する。
我々のデータ拡張アプローチは、マスク付き質問を埋めて新しい質問を生成する「検索と編集」手法に基づいている。
以上の結果から,ChatGPTが生成したパラフレージング質問が元のデータを増やすのに有効であることが確認された。
- 参考スコア(独自算出の注目度): 11.463438573648297
- License:
- Abstract: The existing Text-to-SQL models suffer from a shortage of training data, inhibiting their ability to fully facilitate the applications of SQL queries in new domains. To address this challenge, various data synthesis techniques have been employed to generate more diverse and higher quality data. In this paper, we propose REFORMER, a framework that leverages ChatGPT's prowess without the need for additional training, to facilitate the synthesis of (question, SQL query) pairs tailored to new domains. Our data augmentation approach is based on a "retrieve-and-edit" method, where we generate new questions by filling masked question using explanation of SQL queries with the help of ChatGPT. Furthermore, we demonstrate that cycle consistency remains a valuable method of validation when applied appropriately. Our experimental results show that REFORMER consistently outperforms previous data augmentation methods. To further investigate the power of ChatGPT and create a general data augmentation method, we also generate the new data by paraphrasing the question in the dataset and by paraphrasing the description of a new SQL query that is generated by ChatGPT as well. Our results affirm that paraphrasing questions generated by ChatGPT help augment the original data.
- Abstract(参考訳): 既存のText-to-SQLモデルは、トレーニングデータの不足に悩まされており、新しいドメインでのSQLクエリのアプリケーションを完全に促進する能力を阻害している。
この課題に対処するために、より多彩で高品質なデータを生成するために、様々なデータ合成技術が採用されている。
本稿では,ChatGPTの能力を活用するフレームワークであるREFORMERを提案し,新たなドメインに適した(クエリ,SQLクエリ)ペアの合成を容易にする。
そこでは,ChatGPTの助けを借りてSQLクエリの説明を用いて,マスク付き質問を埋めて新しい質問を生成する。
さらに, サイクルの整合性は, 適切に適用した場合に有効な検証方法であることを示す。
実験結果から,Reformerは従来のデータ拡張手法より一貫して優れていたことが判明した。
また、ChatGPTのパワーをさらに調査し、一般的なデータ拡張手法を作成するために、データセットの質問を言い換え、ChatGPTが生成する新しいSQLクエリの記述を言い換えることで、新しいデータを生成する。
以上の結果から,ChatGPTが生成したパラフレージング質問が元のデータを増やすのに有効であることが確認された。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with
Sample-aware Prompting and Dynamic Revision Chain [21.593701177605652]
サンプルと動的リビジョンチェーンを含むテキスト・ツー・アウェア・プロンプト・フレームワークを提案する。
提案手法は,質問項目のサンプルと詳細な情報を含む。
人間の介入なしに実行可能で正確なスクルを生成するために、我々は、きめ細かいフィードバックを反復的に適応する動的リビジョンチェーンを設計する。
論文 参考訳(メタデータ) (2023-07-11T07:16:22Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - GP: Context-free Grammar Pre-training for Text-to-SQL Parsers [7.652782364282768]
Grammar Pre-training (GP) は質問とデータベースの深い関係を解読するために提案されている。
実験により,本手法は訓練中に収束しやすく,堅牢性に優れることがわかった。
論文 参考訳(メタデータ) (2021-01-25T05:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。