論文の概要: Hallucination Detection for LLM-based Text-to-SQL Generation via Two-Stage Metamorphic Testing
- arxiv url: http://arxiv.org/abs/2512.22250v1
- Date: Wed, 24 Dec 2025 04:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.933603
- Title: Hallucination Detection for LLM-based Text-to-SQL Generation via Two-Stage Metamorphic Testing
- Title(参考訳): 2段階変成試験によるLLMによるテキスト-SQL生成の幻覚検出
- Authors: Bo Yang, Yinfen Xia, Weisong Sun, Yang Liu,
- Abstract要約: 大型言語モデル(LLM)は幻覚、すなわち非現実的または非論理的内容を生成する。
本稿では,メタモルフィックテスト(MT)に基づく新しい幻覚検出手法を提案する。
F1スコアは69.36%から82.76%の範囲である。
- 参考スコア(独自算出の注目度): 8.942002314582789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Text-to-SQL generation, large language models (LLMs) have shown strong generalization and adaptability. However, LLMs sometimes generate hallucinations, i.e.,unrealistic or illogical content, which leads to incorrect SQL queries and negatively impacts downstream applications. Detecting these hallucinations is particularly challenging. Existing Text-to-SQL error detection methods, which are tailored for traditional deep learning models, face significant limitations when applied to LLMs. This is primarily due to the scarcity of ground-truth data. To address this challenge, we propose SQLHD, a novel hallucination detection method based on metamorphic testing (MT) that does not require standard answers. SQLHD splits the detection task into two sequentiial stages: schema-linking hallucination detection via eight structure-aware Metamorphic Relations (MRs) that perturb comparative words, entities, sentence structure or database schema, and logical-synthesis hallucination detection via nine logic-aware MRs that mutate prefix words, extremum expressions, comparison ranges or the entire database. In each stage the LLM is invoked separately to generate schema mappings or SQL artefacts; the follow-up outputs are cross-checked against their source counterparts through the corresponding MRs, and any violation is flagged as a hallucination without requiring ground-truth SQL. The experimental results demonstrate our method's superior performance in terms of the F1-score, which ranges from 69.36\% to 82.76\%. Additionally, SQLHD demonstrates superior performance over LLM Self-Evaluation methods, effectively identifying hallucinations in Text-to-SQL tasks.
- Abstract(参考訳): Text-to-SQL生成では、大きな言語モデル(LLM)が強力な一般化と適応性を示している。
しかし、LLMは時に幻覚、すなわち非現実的または非論理的コンテンツを生成し、誤ったSQLクエリを引き起こし、下流アプリケーションに悪影響を及ぼす。
これらの幻覚を検出することは特に困難である。
従来のディープラーニングモデルに適した既存のText-to-SQLエラー検出手法は、LLMに適用した場合、重大な制限に直面している。
これは主に地上データ不足によるものである。
そこで我々は,メタモルフィックテスト(MT)に基づく新しい幻覚検出法であるSQLHDを提案する。
SQLHDは、比較語、エンティティ、文構造またはデータベーススキーマを摂動する8つの構造認識メタモルフィックリレーション(MR)によるスキーマリンク幻覚検出と、プレフィックスワード、最大表現、比較範囲、データベース全体を変更する9つの論理認識MRによる論理合成幻覚検出である。
各ステージにおいて、LCMは個別に実行され、スキーママッピングやSQLアーティファクトを生成する。後続の出力は対応するMRを通してソースに対してクロスチェックされ、どんな違反も基礎的なSQLを必要とせずに幻覚としてフラグ付けされる。
実験の結果,F1スコアは69.36\%から82.76\%の範囲で優れた性能を示した。
さらに、SQLHDはLLM自己評価手法よりも優れた性能を示し、テキストからSQLタスクの幻覚を効果的に識別する。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation [21.58204328067628]
In-Context Learning (ICL)によって駆動されるLarge Language Models (LLM)は、テキストからテキストへの変換性能を大幅に改善した。
従来の手法では一般に、1)スキーマのリンクと2)論理合成という2段階の推論フレームワークを使用しており、このフレームワークは有効であるだけでなく、解釈可能である。
これらの進歩にもかかわらず、LLMの一般化の本質的に悪い性質は幻覚を引き起こすことが多く、LLMの潜在能力を制限している。
本研究ではまず,各段階の幻覚をテキスト・ツー・テキストで識別し,分類する。
次に、新しい戦略であるタスクアライメント(TA)を紹介します。
論文 参考訳(メタデータ) (2024-05-24T07:51:08Z) - PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-13T02:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。