論文の概要: CAPER: Clause-Aligned Process Supervision for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2606.03327v1
- Date: Tue, 02 Jun 2026 08:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.872389
- Title: CAPER: Clause-Aligned Process Supervision for Text-to-SQL
- Title(参考訳): CAPER: テキストからSQLへのプロセスのクローズアライズ
- Authors: Lujie Ban, Jiasheng Shi, Jinyang Li, Xiaolin Han, Tsz Nam Chan, Chenhao Ma,
- Abstract要約: 本稿では,SQL 抽象構文木への反実的介入を通じて,自動的に節レベルの監視を導出する CAPER を提案する。
得られたデータは、ポリシー最適化と候補検証のための軽量なクロース境界フィードバックであるCAPER-9Bのトレーニングに使用される。
BIRDとスパイダーの実験では、節順の監督は実行精度を向上するだけでなく、GPT-5.4よりも15.3%の改善を達成し、障害局所化能力を強化し、84.53%の精度と90.60%のMRRを達成した。
- 参考スコア(独自算出の注目度): 11.286563956844946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL systems are typically evaluated by query-level execution correctness, but this terminal signal provides little guidance about which intermediate SQL decision caused success or failure. Token-level dense supervision is also ill-suited: SQL tokens do not align with complete semantic decisions, can penalize execution-equivalent queries, and are difficult to label reliably at scale. We therefore propose CAPER, which automatically derives clause-level supervision via counterfactual intervention on the SQL abstract syntax tree, enabling root-cause error localization for reward modeling; the resulting data is used to train CAPER-9B, a lightweight Clause-PRM that provides clause-boundary feedback for policy optimization and candidate verification. Experiments on BIRD and Spider show that clause-aligned supervision not only improves execution accuracy, achieving up to a 15.3% relative EX improvement over GPT-5.4, but also strengthens failure-localization capability, reaching 84.53% accuracy and 90.60% MRR on held-out failures. Our project page is at https://github.com/banrichard/RL-NL2SQL.
- Abstract(参考訳): テキストからSQLへのシステムは通常、クエリレベルの実行の正確さによって評価されるが、この端末信号は、どの中間SQL決定が成功または失敗を引き起こしたかについてのガイダンスをほとんど提供しない。
SQLトークンは完全なセマンティックな決定と一致せず、実行と等価なクエリをペナルライズすることができ、大規模に確実にラベル付けすることが難しい。
そこで我々は,SQL抽象構文木に対する反ファクト的介入による節レベルの監視を自動的に導出し,報酬モデリングの根源的エラーローカライズを可能にするCAPERを提案し,その結果から,ポリシー最適化と候補検証のための節境界フィードバックを提供する軽量なClause-PRMであるCAPER-9Bを訓練する。
BIRDとスパイダーの実験では、節順の監督は実行精度を向上するだけでなく、GPT-5.4よりも15.3%の改善を達成し、障害局所化能力を強化し、84.53%の精度と90.60%のMRRを達成した。
私たちのプロジェクトページはhttps://github.com/banrichard/RL-NL2SQLにあります。
関連論文リスト
- PV-SQL: Synergizing Database Probing and Rule-based Verification for Text-to-SQL Agents [7.865833770467325]
テキスト・ツー・システムは、特に微妙な要求のある複雑なクエリにおいて、深いコンテキスト理解に苦しむことが多い。
本稿では,2つの相補的コンポーネント(プローブと検証)を通じて,これらの障害に対処するエージェントフレームワークであるPV-Verifyを紹介する。
Probeコンポーネントは、データベースから具体的なレコードを取得するための探索クエリを反復的に生成し、値形式、列のセマンティクス、テーブル間の関係の曖昧さを解消し、よりリッチなコンテキスト理解を構築する。
論文 参考訳(メタデータ) (2026-04-19T22:54:05Z) - ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。
ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。
ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文 参考訳(メタデータ) (2026-03-04T05:27:20Z) - Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文 参考訳(メタデータ) (2025-12-28T02:25:33Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - GBV-SQL: Guided Generation and SQL2Text Back-Translation Validation for Multi-Agent Text2SQL [12.455525963127497]
GBV-は、SQL2Textのバックトランスレーションバリデーションによるガイドドジェネレーションを導入した、新しいマルチエージェントフレームワークである。
このメカニズムは特殊エージェントを使用して生成したsqlを自然言語に翻訳し、元の質問と論理的整合性を検証する。
我々は,「金のエラー」の形式的型付けを導入し,それらのモデル性能の曖昧さを実証する。
論文 参考訳(メタデータ) (2025-09-16T03:21:12Z) - SQLens: An End-to-End Framework for Error Detection and Correction in Text-to-SQL [20.93676525997898]
テキスト・トゥ・ザ・ボックス・システムによって生成される大規模言語モデル(LLM)における意味的誤りの詳細な検出と修正のためのエンドツーエンドフレームワークを提案する。
提案手法は誤り検出のためのF1の25.78%の自己評価法よりも優れた性能を示し,アウト・オブ・ザ・ボックスシステムの実行精度を最大20%向上させる。
論文 参考訳(メタデータ) (2025-06-04T22:25:47Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。