論文の概要: SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
- arxiv url: http://arxiv.org/abs/2506.18951v1
- Date: Mon, 23 Jun 2025 09:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.310321
- Title: SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
- Title(参考訳): SWE-SQL: LLMパスをイルミネーションして現実のアプリケーションでユーザSQL問題を解決する
- Authors: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng,
- Abstract要約: 本稿では,BIRDCRITICを紹介した。
また、オープンソースのモデル機能を高めるためのトレーニング環境であるSixGymを紹介します。
これらのコンポーネントをオープンソースのエージェントであるBirdFixer-2.5-14Bに統合します。
- 参考スコア(独自算出の注目度): 42.04389915459889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/
- Abstract(参考訳): 複雑なSQL問題の解決は、現実世界のデータベースアプリケーションにおいて重大なボトルネックとして持続する。
現在のLarge Language Models (LLMs)は、テキストからSQLへの変換に適しているが、SQL問題をデバッグするより難しいタスクについて厳密には評価されていない。
BIRD-CRITIC-Multiは530のPostgreSQLタスク(BIRD-CRITIC-PG)と570のマルチダイアレクトタスク(BIRD-CRITIC-Multi)からなる新しいSQLイシューデバッグベンチマークである。
O3-MiniはBIRD-CRITIC-PGで38.87%、BIRD-CRITIC-Multiで33.33%しか成功していない。
一方、データベースタスクのためのオープンソースのモデルを前進させることは、データのプライバシを保護しながら、ローカル開発を強化する上で非常に重要です。
そこで我々はSix-Gym(Sql-fIX-Gym)を紹介した。
この環境は、検証済みSQLの問題をリバースエンジニアリングすることで、実行可能な課題解決データセットを自動的に生成するSQL-Rewind戦略を活用する。
しかし、一般的な軌道に基づく微調整法は、かなりのオーバシリ信号を探索しない。
さらに,SQL ソリューションから高レベルのデバッグプランを抽出する f-Plan Boosting を提案する。
これらのコンポーネントをオープンソースのエージェントであるBird-Fixerに統合します。
Qwen-2.5-Coder-14Bに基づき、Bird-FixerはBIRD-CRITIC-PGで38.11%の成功率、BIRD-CRITIC-Multiで29.65%を達成し、Claude-3.7-SonnetやGPT-4.1といった主要なプロプライエタリモデルを上回った。
リーダーボードとソースコードは以下の通りである。
関連論文リスト
- ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。
これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文 参考訳(メタデータ) (2024-08-15T04:57:55Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。