論文の概要: Grounding Natural Language to SQL Translation with Data-Based Self-Explanations
- arxiv url: http://arxiv.org/abs/2411.02948v1
- Date: Tue, 05 Nov 2024 09:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:23.842661
- Title: Grounding Natural Language to SQL Translation with Data-Based Self-Explanations
- Title(参考訳): データに基づく自己説明による自然言語からSQLへの翻訳
- Authors: Yuankai Fan, Tonghui Ren, Can Huang, Zhenying He, X. Sean Wang,
- Abstract要約: Cycleは、エンドツーエンドの翻訳モデルのために設計されたフレームワークで、自己評価を通じて最適な出力を自律的に生成する。
主な考え方は、データ基底のNL説明を自己提供のフィードバックとして導入し、そのフィードバックを使って翻訳の正確性を検証することである。
その結果、1) サイクルで導入されたフィードバックループは既存のモデルの性能を一貫して改善することができ、特にRESDにCycleを適用することで、検証セットで82.0%(+2.6%)、テストセットベンチマークで81.6%(+3.2%)の翻訳精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.4643285253289475
- License:
- Abstract: Natural Language Interfaces for Databases empower non-technical users to interact with data using natural language (NL). Advanced approaches, utilizing either neural sequence-to-sequence or more recent sophisticated large-scale language models, typically implement NL to SQL (NL2SQL) translation in an end-to-end fashion. However, like humans, these end-to-end translation models may not always generate the best SQL output on their first try. In this paper, we propose CycleSQL, an iterative framework designed for end-to-end translation models to autonomously generate the best output through self-evaluation. The main idea of CycleSQL is to introduce data-grounded NL explanations of query results as self-provided feedback, and use the feedback to validate the correctness of the translation iteratively, hence improving the overall translation accuracy. Extensive experiments, including quantitative and qualitative evaluations, are conducted to study CycleSQL by applying it to seven existing translation models on five widely used benchmarks. The results show that 1) the feedback loop introduced in CycleSQL can consistently improve the performance of existing models, and in particular, by applying CycleSQL to RESDSQL, obtains a translation accuracy of 82.0% (+2.6%) on the validation set, and 81.6% (+3.2%) on the test set of Spider benchmark; 2) the generated NL explanations can also provide insightful information for users, aiding in the comprehension of translation results and consequently enhancing the interpretability of NL2SQL translation.
- Abstract(参考訳): 自然言語インタフェース 自然言語(NL)を使用して、非技術者がデータと対話することを可能にする。
ニューラルシークエンス・ツー・シークエンスまたはより最近の高度な大規模言語モデルを利用する高度なアプローチは、通常、エンドツーエンドでNL to SQL(NL2SQL)翻訳を実装する。
しかしながら、人間と同じように、これらのエンドツーエンドの翻訳モデルは、最初の試行で最高のSQL出力を生成するとは限らない。
本稿では,エンドツーエンドの翻訳モデルのための反復型フレームワークであるCycleSQLを提案し,自己評価により最適な出力を自動生成する。
CycleSQLの主な考え方は、クエリ結果に関するデータグラウンドのNL説明を自己提供のフィードバックとして導入し、フィードバックを使用して翻訳の正確性を反復的に検証し、全体的な翻訳精度を向上させることである。
定量的および定性的な評価を含む大規模な実験は、CycleSQLを5つの広く使用されているベンチマークで既存の7つの翻訳モデルに適用することで研究する。
その結果は
1) CycleSQLで導入されたフィードバックループは、既存のモデルの性能を一貫して改善することができ、特に、CycleSQLをRESDSQLに適用することにより、検証セットで82.0%(+2.6%)、スパイダーベンチマークのテストセットで81.6%(+3.2%)の翻訳精度が得られる。
2)生成したNL説明は,翻訳結果の理解を支援するとともに,NL2SQL翻訳の解釈可能性の向上にも寄与する。
関連論文リスト
- Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Metasql: A Generate-then-Rank Framework for Natural Language to SQL
Translation [10.812409371488913]
本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫して向上する統合生成列フレームワークを提案する。
Metasqlは、より良いクエリ候補の生成を制御するためにクエリメタデータを導入し、グローバルに最適化されたクエリを検索するために学習からランクアルゴリズムを使用する。
その結果,Metasqlを用いて翻訳モデルの性能を効果的に改善できることが示唆された。
論文 参考訳(メタデータ) (2024-02-27T02:16:07Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Interleaving Pre-Trained Language Models and Large Language Models for
Zero-Shot NL2SQL Generation [23.519727682763644]
ZeroNL2は、新しい環境に適応する自然言語のtosqlの実現に不可欠である。
既存のアプローチは、データに基づいた微調整事前学習言語モデル(PLM)か、ChatGPTのような固定された大言語モデル(LLM)をガイドするプロンプトを使用する。
ゼロショットNL2をサポートするために, PLM と LLM の相補的な利点を組み合わせた ZeroNL2 フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T06:50:51Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。