論文の概要: ReViSQL: Achieving Human-Level Text-to-SQL
- arxiv url: http://arxiv.org/abs/2603.20004v1
- Date: Fri, 20 Mar 2026 14:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.188277
- Title: ReViSQL: Achieving Human-Level Text-to-SQL
- Title(参考訳): ReViSQL: ヒューマンレベルテキストからSQLへの到達
- Authors: Yuxuan Zhu, Tengjun Jin, Yoojin Choi, Daniel Kang,
- Abstract要約: 本稿では,BIRDベンチマークデータ上での人間レベルの精度向上を目的とした,合理化フレームワークReViを紹介する。
複雑なAIエージェントの代わりに、ReViは、私たちがキュレートしたデータセットBIRD-で検証可能な報酬(RLVR)で学習を活用する。
我々はBIRDトレインの61.1%でデータエラーを特定し修正し、データ品質の改善だけで1世代精度を8.2~13.9%向上させることを示した。
- 参考スコア(独自算出の注目度): 8.94428202485629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language to SQL (Text-to-SQL) is a critical challenge in both database research and data analytics applications. Recent efforts have focused on enhancing SQL reasoning by developing large language models and AI agents that decompose Text-to-SQL tasks into manually designed, step-by-step pipelines. However, despite these extensive architectural engineering efforts, a significant gap remains: even state-of-the-art (SOTA) AI agents have not yet achieved the human-level accuracy on the BIRD benchmark. In this paper, we show that closing this gap does not require further architectural complexity, but rather clean training data to improve SQL reasoning of the underlying models. We introduce ReViSQL, a streamlined framework that achieves human-level accuracy on BIRD for the first time. Instead of complex AI agents, ReViSQL leverages reinforcement learning with verifiable rewards (RLVR) on BIRD-Verified, a dataset we curated comprising 2.5k verified Text-to-SQL instances based on the BIRD Train set. To construct BIRD-Verified, we design a data correction and verification workflow involving SQL experts. We identified and corrected data errors in 61.1% of a subset of BIRD Train. By training on BIRD-Verified, we show that improving data quality alone boosts the single-generation accuracy by 8.2-13.9% under the same RLVR algorithm. To further enhance performance, ReViSQL performs inference-time scaling via execution-based reconciliation and majority voting. Empirically, we demonstrate the superiority of our framework with two model scales: ReViSQL-235B-A22B and ReViSQL-30B-A3B. On an expert-verified BIRD Mini-Dev set, ReViSQL-235B-A22B achieves 93.2% execution accuracy, exceeding the proxy human-level accuracy (92.96%) and outperforming the prior open-source SOTA method by 9.8%. Our lightweight ReViSQL-30B-A3B matches the prior SOTA at a 7.5$\times$ lower per-query cost.
- Abstract(参考訳): SQLへの自然言語の翻訳(Text-to-SQL)は、データベースの研究とデータ分析アプリケーションにおいて重要な課題である。
近年の取り組みは、テキストからSQLまでのタスクを手作業で設計したステップバイステップパイプラインに分解する、大規模な言語モデルとAIエージェントを開発することで、SQL推論の強化に重点を置いている。
最先端(SOTA)のAIエージェントでさえ、BIRDベンチマークで人間レベルの精度を達成できていない。
本稿では,このギャップを埋めるにはアーキテクチャの複雑さが増す必要はなく,基礎となるモデルのSQL推論を改善するためのクリーンなトレーニングデータが必要であることを示す。
BIRD上で人間レベルの精度を初めて達成する,合理化されたフレームワークであるReViSQLを紹介する。
複雑なAIエージェントの代わりに、ReViSQLはBIRD-Verified上で検証可能な報酬(RLVR)による強化学習を活用します。
BIRD-Verifiedを構築するために、我々はSQL専門家を含むデータ修正と検証のワークフローを設計する。
我々はBIRDトレインの61.1%のサブセットでデータエラーを特定し修正した。
BIRD-Verifiedのトレーニングにより、データ品質の向上だけで、同一のRLVRアルゴリズムの下で1世代精度が8.2~13.9%向上することを示した。
パフォーマンスをさらに向上するため、ReViSQLは実行ベースの和解と多数決による推論時間スケーリングを実行する。
ReViSQL-235B-A22BとReViSQL-30B-A3Bです。
BIRD Mini-Devセットでは、ReViSQL-235B-A22Bは93.2%の実行精度を達成し、プロキシレベルの精度(92.96%)を超え、以前のオープンソースSOTAメソッドを9.8%上回っている。
私たちの軽量なReViSQL-30B-A3Bは、以前のSOTAと7.5$\times$1クエリあたりのコストで一致します。
関連論文リスト
- Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - DeKeyNLU: Enhancing Natural Language to SQL Generation through Task Decomposition and Keyword Extraction [46.422626657078666]
本稿では,1500組のQAペアを含む新しいデータセットであるDeKeyNLUを提案する。
本稿では,ユーザ質問理解,エンティティ検索,生成に3つのモジュールを使用するRAGベースのNL2パイプラインであるDeKeyを提案する。
論文 参考訳(メタデータ) (2025-09-18T00:47:56Z) - CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。
我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。
提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。
効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文 参考訳(メタデータ) (2025-07-08T14:17:07Z) - SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications [42.04389915459889]
本稿では,BIRDCRITICを紹介した。
また、オープンソースのモデル機能を高めるためのトレーニング環境であるSixGymを紹介します。
これらのコンポーネントをオープンソースのエージェントであるBirdFixer-2.5-14Bに統合します。
論文 参考訳(メタデータ) (2025-06-23T09:41:37Z) - SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation [8.638974393417929]
State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
論文 参考訳(メタデータ) (2025-06-09T04:44:31Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。