論文の概要: CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description
- arxiv url: http://arxiv.org/abs/2508.12769v2
- Date: Tue, 19 Aug 2025 13:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 13:30:22.893105
- Title: CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description
- Title(参考訳): CRED-SQL: クラスタ検索と実行記述を通じて、現実の大規模データベースのテキストからSQLへのパーシングを促進する
- Authors: Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Penge,
- Abstract要約: CRED-は大規模データベース向けに設計されたフレームワークで、クラスタ検索と実行記述を統合している。
自然言語質問(NLQ)と対応するsqlクエリのギャップを埋める。
CRED-は最新のgit-the-art(SOTA)パフォーマンスを実現し、その有効性とスケーラビリティを検証する。
- 参考スコア(独自算出の注目度): 15.080310729603466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) have significantly improved the accuracy of Text-to-SQL systems. However, a critical challenge remains: the semantic mismatch between natural language questions (NLQs) and their corresponding SQL queries. This issue is exacerbated in large-scale databases, where semantically similar attributes hinder schema linking and semantic drift during SQL generation, ultimately reducing model accuracy. To address these challenges, we introduce CRED-SQL, a framework designed for large-scale databases that integrates Cluster Retrieval and Execution Description. CRED-SQL first performs cluster-based large-scale schema retrieval to pinpoint the tables and columns most relevant to a given NLQ, alleviating schema mismatch. It then introduces an intermediate natural language representation-Execution Description Language (EDL)-to bridge the gap between NLQs and SQL. This reformulation decomposes the task into two stages: Text-to-EDL and EDL-to-SQL, leveraging LLMs' strong general reasoning capabilities while reducing semantic deviation. Extensive experiments on two large-scale, cross-domain benchmarks-SpiderUnion and BirdUnion-demonstrate that CRED-SQL achieves new state-of-the-art (SOTA) performance, validating its effectiveness and scalability. Our code is available at https://github.com/smduan/CRED-SQL.git
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、テキスト-SQLシステムの精度を大幅に向上させた。
しかし、重要な課題は、自然言語質問(NLQ)とそれに対応するSQLクエリとのセマンティックミスマッチである。
この問題は、SQL生成中にスキーマリンクとセマンティックドリフトを妨げ、最終的にモデルの精度を低下させる意味的に類似した属性を持つ大規模なデータベースで悪化している。
これらの課題に対処するため,クラスタ検索と実行記述を統合した大規模データベース用に設計されたフレームワークであるCRED-SQLを紹介した。
CRED-SQLはまずクラスタベースの大規模スキーマ検索を実行し、与えられたNLQに関連するテーブルや列をピンポイントし、スキーマミスマッチを緩和する。
次に、NLQとSQLのギャップを埋めるために、中間的な自然言語表現-実行記述言語(EDL)を導入する。
この改定は、タスクをテキストからEDL、EDLからSQLに分解し、LLMの強い一般的な推論能力を活用するとともに、意味的偏差を低減させる。
大規模なクロスドメインベンチマークであるSpiderUnionとBirdUnion-demonstrateでは、CRED-SQLが新たなSOTA(State-of-the-art)パフォーマンスを実現し、その有効性とスケーラビリティを検証している。
私たちのコードはhttps://github.com/smduan/CRED-SQL.gitで利用可能です。
関連論文リスト
- UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。
本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T09:24:03Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-13T02:32:41Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。