論文の概要: GBV-SQL: Guided Generation and SQL2Text Back-Translation Validation for Multi-Agent Text2SQL
- arxiv url: http://arxiv.org/abs/2509.12612v1
- Date: Tue, 16 Sep 2025 03:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.856276
- Title: GBV-SQL: Guided Generation and SQL2Text Back-Translation Validation for Multi-Agent Text2SQL
- Title(参考訳): GBV-SQL:マルチエージェントText2SQLのガイド生成とSQL2Textバックトランスレーションバリデーション
- Authors: Daojun Chen, Xi Wang, Shenyuan Ren, Qingzhi Ma, Pengpeng Zhao, An Liu,
- Abstract要約: GBV-は、SQL2Textのバックトランスレーションバリデーションによるガイドドジェネレーションを導入した、新しいマルチエージェントフレームワークである。
このメカニズムは特殊エージェントを使用して生成したsqlを自然言語に翻訳し、元の質問と論理的整合性を検証する。
我々は,「金のエラー」の形式的型付けを導入し,それらのモデル性能の曖昧さを実証する。
- 参考スコア(独自算出の注目度): 12.455525963127497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models have significantly advanced Text2SQL generation, a critical semantic gap persists where syntactically valid queries often misinterpret user intent. To mitigate this challenge, we propose GBV-SQL, a novel multi-agent framework that introduces Guided Generation with SQL2Text Back-translation Validation. This mechanism uses a specialized agent to translate the generated SQL back into natural language, which verifies its logical alignment with the original question. Critically, our investigation reveals that current evaluation is undermined by a systemic issue: the poor quality of the benchmarks themselves. We introduce a formal typology for "Gold Errors", which are pervasive flaws in the ground-truth data, and demonstrate how they obscure true model performance. On the challenging BIRD benchmark, GBV-SQL achieves 63.23% execution accuracy, a 5.8% absolute improvement. After removing flawed examples, GBV-SQL achieves 96.5% (dev) and 97.6% (test) execution accuracy on the Spider benchmark. Our work offers both a robust framework for semantic validation and a critical perspective on benchmark integrity, highlighting the need for more rigorous dataset curation.
- Abstract(参考訳): 大きな言語モデルではText2SQL生成が大幅に進歩するが、重要なセマンティックギャップは、構文的に有効なクエリがユーザの意図を誤って解釈する場合に持続する。
この課題を軽減するために、GBV-SQLを提案する。これは、SQL2Textのバックトランスレーションバリデーションによるガイド生成を導入した、新しいマルチエージェントフレームワークである。
このメカニズムは特別なエージェントを使用して生成したSQLを自然言語に変換し、元の質問と論理的な整合性を検証する。
批判的に、我々の調査は現在の評価がシステム的な問題によって損なわれていることを明らかにしている。
そこで本研究では,Gold Errorsの形式的型付けを導入し,モデル性能の曖昧さを実証する。
挑戦的なBIRDベンチマークでは、GBV-SQLは63.23%の実行精度を達成し、5.8%の絶対的な改善を実現している。
欠陥のある例を取り除いた後、GBV-SQLは96.5%(デブ)と97.6%(テスト)の精度をスパイダーベンチマークで達成した。
私たちの研究は、セマンティック検証のための堅牢なフレームワークと、ベンチマークの完全性に対する批判的な視点の両方を提供し、より厳密なデータセットキュレーションの必要性を強調しています。
関連論文リスト
- Evaluating NL2SQL via SQL2NL [45.88028371034407]
新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
論文 参考訳(メタデータ) (2025-09-04T21:03:59Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration [26.193588535592767]
本稿では,SQLの誤検出と修復を目的とした,新しい一貫性向上型マルチエージェント協調フレームワークを提案する。
提案するフレームワークを5つのテキスト・テキスト・ベンチマークで評価する。
本手法はベースラインモデルの性能を継続的に向上させる。
私たちのフレームワークは、他の高度なメソッドよりもトークン効率が高いので、より競争力があります。
論文 参考訳(メタデータ) (2024-06-19T09:57:19Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。