論文の概要: SQLStructEval: Structural Evaluation of LLM Text-to-SQL Generation
- arxiv url: http://arxiv.org/abs/2604.06736v1
- Date: Wed, 08 Apr 2026 06:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.37811
- Title: SQLStructEval: Structural Evaluation of LLM Text-to-SQL Generation
- Title(参考訳): SQLStructEval: LLMテキスト-SQL生成の構造評価
- Authors: Yixi Zhou, Fan Zhang, Zhiqiao Guo, Yu Chen, Haipeng Zhang, Preslav Nakov, Zhuohan Xie,
- Abstract要約: 正規抽象構文木表現を用いてプログラム構造を解析するフレームワークを提案する。
スパイダーベンチマーク実験により、現代のLLMは、しばしば同じ入力に対して構造的に多様なクエリを生成することが示された。
コンパイルスタイルのパイプラインを通じて構造化された空間でクエリを生成することで、実行精度と構造的一貫性の両方を改善することができる。
- 参考スコア(独自算出の注目度): 44.48546533071758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite strong performance on Text-to-SQL benchmarks, it remains unclear whether LLM-generated SQL programs are structurally reliable. In this work, we investigate the structural behavior of LLM-generated SQL queries and introduce SQLStructEval, a framework for analyzing program structures through canonical abstract syntax tree (AST) representations. Our experiments on the Spider benchmark show that modern LLMs often produce structurally diverse queries for the same input, even when execution results are correct, and that such variance is frequently triggered by surface-level input changes such as paraphrases or schema presentation. We further show that generating queries in a structured space via a compile-style pipeline can improve both execution accuracy and structural consistency. These findings suggest that structural reliability is a critical yet overlooked dimension for evaluating LLM-based program generation systems. Our code is available at https://anonymous.4open.science/r/StructEval-2435.
- Abstract(参考訳): Text-to-SQLベンチマークのパフォーマンスは高いが、LLM生成SQLプログラムが構造的に信頼性があるかどうかは不明だ。
本研究では,LLM生成SQLクエリの構造挙動を調査し,標準抽象構文木(AST)表現を用いてプログラム構造を解析するフレームワークであるSQLStructEvalを導入する。
スパイダーベンチマークを用いた実験では, 実行結果が正しい場合でも, 現代LLMが同じ入力に対して構造的に多様なクエリを生成することがよくあり, パラフレーズやスキーマ表示のような表面レベルの入力変化によって, その分散が頻繁に引き起こされることが示されている。
さらに、コンパイルスタイルのパイプラインを介して構造化空間でクエリを生成することにより、実行精度と構造整合性の両方を改善することができることを示す。
これらの結果から,LLMに基づくプログラム生成システムを評価する上で,構造的信頼性は重要ではあるが見落とされがちな次元であることが示唆された。
私たちのコードはhttps://anonymous.4open.science/r/StructEval-2435で利用可能です。
関連論文リスト
- ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。
ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。
ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文 参考訳(メタデータ) (2026-03-04T05:27:20Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Structure Guided Large Language Model for SQL Generation [14.079764882536077]
構造対応型テキスト・ツー・クエリ・フレームワーク(SGU)を提案する。
SGU対応のテキスト・ツー・クエリ・フレームワーク(SGU)は、最先端のテキスト・ツー・モデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-02-19T09:07:59Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。