論文の概要: SQLord: A Robust Enterprise Text-to-SQL Solution via Reverse Data Generation and Workflow Decomposition
- arxiv url: http://arxiv.org/abs/2507.10629v1
- Date: Mon, 14 Jul 2025 08:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.795277
- Title: SQLord: A Robust Enterprise Text-to-SQL Solution via Reverse Data Generation and Workflow Decomposition
- Title(参考訳): SQLord: リバースデータ生成とワークフロー分解によるロバストなエンタープライズテキストからSQLへのソリューション
- Authors: Song Cheng, Qiannan Cheng, Linbo Jin, Lei Yi, Guannan Zhang,
- Abstract要約: オープンソースのデータセットでトレーニングされた既存のフレームワークは、複雑なビジネスロジックに苦労する。
評価手法は、実際のシナリオでは不十分なアノテートされたデータ環境を必要とすることが多い。
これらの課題に対処するエンタープライズレベルのNL2フレームワークであるSQLordを提案する。
これは、世界最大のB2Beコマースプラットフォーム上で、複数のシナリオにまたがってうまく適用されている。
- 参考スコア(独自算出の注目度): 8.468281360094181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transforming natural language into SQL queries (NL2SQL) is crucial for data-driven business applications. Existing frameworks, trained on open-source datasets, struggle with complex business logic and lack domain-specific data for fine-tuning. Additionally, evaluation methods often require annotated data and executable database environments, which are scarce in real-world scenarios. To address these challenges, we propose SQLord, an enterprise-level NL2SQL framework. First, SQLord introduces a data reverse generation approach to convert raw SQL statements into annotated data for supervised fine-tuning (SFT). Second, it proposes a decomposition method for complex queries using an automated workflow generator. Additionally, SQLord features a comprehensive GPT-Judge evaluation framework, including Execution Evaluation (EXE), Query-SQL Evaluation (QSE), and SQL-SQL Evaluation (SSE), tailored to diverse scenarios. Offline tests significantly outperform state of the art baselines, and online accuracy consistently exceeds 90, highlighting SQLord's advantages and effectiveness in complex real world scenarios. SQLord has been successfully applied across multiple scenarios on the world's largest B2B e-commerce platform.
- Abstract(参考訳): 自然言語をSQLクエリ(NL2SQL)に変換することは、データ駆動ビジネスアプリケーションにとって非常に重要です。
既存のフレームワークは、オープンソースのデータセットに基づいてトレーニングされており、複雑なビジネスロジックと苦労し、微調整のためのドメイン固有のデータがない。
さらに、アノテートされたデータと実行可能データベース環境を必要とする場合が多く、実際のシナリオでは不十分である。
これらの課題に対処するため、エンタープライズレベルのNL2SQLフレームワークであるSQLordを提案する。
まず、SQLordは生のSQLステートメントを教師付き微調整(SFT)のための注釈付きデータに変換するためのデータリバース生成アプローチを導入している。
次に,自動ワークフロー生成器を用いて複雑なクエリを分解する手法を提案する。
さらにSQLordは、Execution Evaluation(EXE)、Query-SQL Evaluation(QSE)、SQL-SQL Evaluation(SSE)など、さまざまなシナリオに合わせた総合的なGPT-Judge評価フレームワークを備えている。
オフラインテストは最先端のベースラインを大幅に上回り、オンラインの精度は一貫して90を超え、複雑な実世界のシナリオにおけるSQLordの利点と有効性を強調している。
SQLordは、世界最大のB2Beコマースプラットフォーム上で、複数のシナリオでうまく適用されています。
関連論文リスト
- Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。
このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。
既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。
スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文 参考訳(メタデータ) (2025-02-21T22:32:35Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。
E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios [28.55596803781757]
実際のシナリオでは、データベースのミスマッチが一般的です。
我々は,現実世界のシナリオで発生する条件ミスマッチ問題を反映した新しいデータセットであるSpider-Mismatchを紹介する。
提案手法は,数ショット設定で,スパイダーとスパイダー・リアリスティックのデータセットの平均値に対して高い性能を達成する。
論文 参考訳(メタデータ) (2024-08-30T03:38:37Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。