論文の概要: Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL
- arxiv url: http://arxiv.org/abs/2512.22744v1
- Date: Sun, 28 Dec 2025 02:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.20119
- Title: Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL
- Title(参考訳): 局所的詳細を伴うグローバルインテントのブリッジ:テキストからSQLへのセマンティックバリデーションのための階層的表現アプローチ
- Authors: Rihong Qiu, Zhibang Yang, Xinke Jiang, Weibin Liao, Xin Gao, Xu Chu, Junfeng Zhao, Yasha Wang,
- Abstract要約: HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
- 参考スコア(独自算出の注目度): 30.78817492504152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL translates natural language questions into SQL statements grounded in a target database schema. Ensuring the reliability and executability of such systems requires validating generated SQL, but most existing approaches focus only on syntactic correctness, with few addressing semantic validation (detecting misalignments between questions and SQL). As a consequence, effective semantic validation still faces two key challenges: capturing both global user intent and SQL structural details, and constructing high-quality fine-grained sub-SQL annotations. To tackle these, we introduce HEROSQL, a hierarchical SQL representation approach that integrates global intent (via Logical Plans, LPs) and local details (via Abstract Syntax Trees, ASTs). To enable better information propagation, we employ a Nested Message Passing Neural Network (NMPNN) to capture inherent relational information in SQL and aggregate schema-guided semantics across LPs and ASTs. Additionally, to generate high-quality negative samples, we propose an AST-driven sub-SQL augmentation strategy, supporting robust optimization of fine-grained semantic inconsistencies. Extensive experiments conducted on Text-to-SQL validation benchmarks (both in-domain and out-of-domain settings) demonstrate that our approach outperforms existing state-of-the-art methods, achieving an average 9.40% improvement of AUPRC and 12.35% of AUROC in identifying semantic inconsistencies. It excels at detecting fine-grained semantic errors, provides large language models with more granular feedback, and ultimately enhances the reliability and interpretability of data querying platforms.
- Abstract(参考訳): Text-to-SQLは、自然言語の質問をターゲットのデータベーススキーマに基礎を置いたSQLステートメントに変換する。
このようなシステムの信頼性と実行性を保証するには、生成したSQLを検証する必要があるが、既存のほとんどのアプローチは、セマンティックなバリデーション(質問とSQLの不一致を検出する)にほとんど対処することなく、構文的正確性のみに焦点を当てている。
その結果、効果的なセマンティックバリデーションは、グローバルユーザインテントとSQL構造の詳細の両方をキャプチャし、高品質な粒度のサブSQLアノテーションを構築するという、2つの大きな課題に直面している。
HEROSQLは、グローバルインテント(ロジカルプラン、LP経由)とローカル詳細(抽象構文ツリー、AST経由)を統合する階層的なSQL表現アプローチである。
より優れた情報伝達を可能にするために、Nested Message Passing Neural Network (NMPNN)を用いて、SQL固有の関係情報をキャプチャし、LPとASTにまたがるスキーマ誘導セマンティクスを集約する。
さらに、高品質な負のサンプルを生成するために、AST駆動のサブSQL拡張戦略を提案し、きめ細かいセマンティック不整合の堅牢な最適化を支援する。
テキストとSQLの検証ベンチマーク(ドメイン内およびドメイン外設定の両方)で実施された大規模な実験により、我々のアプローチは既存の最先端手法よりも優れており、意味的不整合を識別する上で平均9.40%のAUPRCと12.35%のAUROCの改善を実現している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
関連論文リスト
- Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - ORANGE: An Online Reflection ANd GEneration framework with Domain Knowledge for Text-to-SQL [8.241433772695018]
大規模言語モデル (LLM) は、自然言語 tosql の翻訳において顕著な進歩を示している。
データベースの一般的な知識とドメイン固有のセマンティクスの間には、重要なセマンティクスギャップが持続する。
翻訳ログからクエリを解析することでデータベース固有の知識ベースを構築するオンラインの自己進化フレームワークであるOrangeを紹介する。
論文 参考訳(メタデータ) (2025-11-02T15:57:18Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。