Fugu-MT 論文翻訳(概要): SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

論文の概要: SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

arxiv url: http://arxiv.org/abs/2506.18951v1
Date: Mon, 23 Jun 2025 09:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.310321
Title: SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
Title（参考訳）: SWE-SQL: LLMパスをイルミネーションして現実のアプリケーションでユーザSQL問題を解決する
Authors: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng,
Abstract要約: 本稿では,BIRDCRITICを紹介した。また、オープンソースのモデル機能を高めるためのトレーニング環境であるSixGymを紹介します。これらのコンポーネントをオープンソースのエージェントであるBirdFixer-2.5-14Bに統合します。
参考スコア（独自算出の注目度）: 42.04389915459889
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/
Abstract（参考訳）: 複雑なSQL問題の解決は、現実世界のデータベースアプリケーションにおいて重大なボトルネックとして持続する。現在のLarge Language Models (LLMs)は、テキストからSQLへの変換に適しているが、SQL問題をデバッグするより難しいタスクについて厳密には評価されていない。 BIRD-CRITIC-Multiは530のPostgreSQLタスク(BIRD-CRITIC-PG)と570のマルチダイアレクトタスク(BIRD-CRITIC-Multi)からなる新しいSQLイシューデバッグベンチマークである。 O3-MiniはBIRD-CRITIC-PGで38.87%、BIRD-CRITIC-Multiで33.33%しか成功していない。一方、データベースタスクのためのオープンソースのモデルを前進させることは、データのプライバシを保護しながら、ローカル開発を強化する上で非常に重要です。そこで我々はSix-Gym(Sql-fIX-Gym)を紹介した。この環境は、検証済みSQLの問題をリバースエンジニアリングすることで、実行可能な課題解決データセットを自動的に生成するSQL-Rewind戦略を活用する。しかし、一般的な軌道に基づく微調整法は、かなりのオーバシリ信号を探索しない。さらに,SQL ソリューションから高レベルのデバッグプランを抽出する f-Plan Boosting を提案する。これらのコンポーネントをオープンソースのエージェントであるBird-Fixerに統合します。 Qwen-2.5-Coder-14Bに基づき、Bird-FixerはBIRD-CRITIC-PGで38.11%の成功率、BIRD-CRITIC-Multiで29.65%を達成し、Claude-3.7-SonnetやGPT-4.1といった主要なプロプライエタリモデルを上回った。リーダーボードとソースコードは以下の通りである。

関連論文リスト

CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文参考訳（メタデータ） (2025-07-08T14:17:07Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文参考訳（メタデータ） (2025-03-25T18:17:36Z)
OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文参考訳（メタデータ） (2025-02-19T07:51:50Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文参考訳（メタデータ） (2024-09-16T05:40:18Z)
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文参考訳（メタデータ） (2024-08-15T04:57:55Z)
MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文参考訳（メタデータ） (2023-12-18T14:40:20Z)
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文参考訳（メタデータ） (2023-05-04T19:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。