Fugu-MT 論文翻訳(概要): ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

論文の概要: ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

arxiv url: http://arxiv.org/abs/2603.03742v1
Date: Wed, 04 Mar 2026 05:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.18753
Title: ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement
Title（参考訳）: ErrorLLM: テキストからSQLへのリファインメントのためのSQLエラーモデリング
Authors: Zijin Hong, Hao Chen, Zheng Yuan, Qinggang Zhang, Luyao Zhuang, Qing Liao, Feiran Huang, Yangqiu Song, Xiao Huang,
Abstract要約: テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。 ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。 ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
参考スコア（独自算出の注目度）: 57.98138819417949
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable performance of large language models (LLMs) in text-to-SQL (SQL generation), correctly producing SQL queries remains challenging during initial generation. The SQL refinement task is subsequently introduced to correct syntactic and semantic errors in generated SQL queries. However, existing paradigms face two major limitations: (i) self-debugging becomes increasingly ineffective as modern LLMs rarely produce explicit execution errors that can trigger debugging signals; (ii) self-correction exhibits low detection precision due to the lack of explicit error modeling grounded in the question and schema, and suffers from severe hallucination that frequently corrupts correct SQLs. In this paper, we propose ErrorLLM, a framework that explicitly models text-to-SQL Errors within a dedicated LLM for text-to-SQL refinement. Specifically, we represent the user question and database schema as structural features, employ static detection to identify execution failures and surface mismatches, and extend ErrorLLM's semantic space with dedicated error tokens that capture categorized implicit semantic error types. Through a well-designed training strategy, we explicitly model these errors with structural representations, enabling the LLM to detect complex implicit errors by predicting dedicated error tokens. Guided by the detected errors, we perform error-guided refinement on the SQL structure by prompting LLMs. Extensive experiments demonstrate that ErrorLLM achieves the most significant improvements over backbone initial generation. Further analysis reveals that detection quality directly determines refinement effectiveness, and ErrorLLM addresses both sides by high detection F1 score while maintain refinement effectiveness.
Abstract（参考訳）: テキストからSQL生成(SQL生成)における大きな言語モデル(LLM)の顕著なパフォーマンスにもかかわらず、SQLクエリの正確な生成は、初期生成時に難しいままである。 SQLリファインメントタスクはその後、生成されたSQLクエリの構文的および意味的エラーを正すために導入された。しかし、既存のパラダイムには2つの大きな制限がある。 i) 自己デバッグは、現代のLSMでは、デバッグ信号をトリガーできる明示的な実行エラーが発生することが滅多にないため、ますます非効率になる。 (II)自己補正は,質問やスキーマに基づいた明示的誤りモデリングの欠如による検出精度の低下を示し,しばしば正しいSQLを劣化させる重度の幻覚に悩まされている。本稿では,テキストからSQLへの書き換えのための専用のLLM内で,テキストからSQLへのエラーを明示的にモデル化するフレームワークであるErrorLLMを提案する。具体的には、ユーザ質問とデータベーススキーマを構造的特徴として表現し、静的検出を使用して実行障害と表面ミスマッチを特定し、分類された暗黙的なセマンティックエラータイプをキャプチャする専用のエラートークンでErrorLLMのセマンティックスペースを拡張します。十分に設計されたトレーニング戦略を通じて、これらのエラーを構造表現で明示的にモデル化し、LLMは専用のエラートークンを予測することによって、複雑な暗黙的エラーを検出することができる。検出されたエラーに導かれて,LLMを誘導することにより,SQL構造上の誤り誘導の洗練を行う。大規模な実験では、ErrorLLMはバックボーンの初期生成よりも最も重要な改善を達成している。さらに、検出品質が精錬効率を直接決定し、ErrorLLMは精錬効率を維持しつつ、高精錬F1スコアで両面に対処することを明らかにする。

関連論文リスト

Hallucination Detection for LLM-based Text-to-SQL Generation via Two-Stage Metamorphic Testing [8.942002314582789]
大型言語モデル(LLM)は幻覚、すなわち非現実的または非論理的内容を生成する。本稿では,メタモルフィックテスト(MT)に基づく新しい幻覚検出手法を提案する。 F1スコアは69.36%から82.76%の範囲である。
論文参考訳（メタデータ） (2025-12-24T04:04:26Z)
SQLens: An End-to-End Framework for Error Detection and Correction in Text-to-SQL [20.93676525997898]
テキスト・トゥ・ザ・ボックス・システムによって生成される大規模言語モデル(LLM)における意味的誤りの詳細な検出と修正のためのエンドツーエンドフレームワークを提案する。提案手法は誤り検出のためのF1の25.78%の自己評価法よりも優れた性能を示し,アウト・オブ・ザ・ボックスシステムの実行精度を最大20%向上させる。
論文参考訳（メタデータ） (2025-06-04T22:25:47Z)
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL [18.493226915913638]
テキスト・トゥ・コレクションのためのSLMに基づく階層的行動補正アシスタントSHAREを提案する。 SHAREはシーケンシャルパイプラインで3つの特殊小言語モデル(SLM)を編成する。実験により,SHAREは様々なLSMに対して堅牢性を示しながら,自己補正能力を効果的に向上することが示された。
論文参考訳（メタデータ） (2025-05-31T04:51:12Z)
SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [8.680252929322684]
そこで我々は,sqlCriticBenchというベンチマークとともに,節単位の批判生成タスクを導入し,詳細なエラーローカライゼーションを行う。また,自動トレーニングデータセットキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-03-11T02:52:39Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文参考訳（メタデータ） (2024-09-24T09:24:03Z)
DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文参考訳（メタデータ） (2024-08-16T14:43:15Z)
Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文参考訳（メタデータ） (2024-08-06T15:40:32Z)
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-05-21T19:26:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。