論文の概要: PaVeRL-SQL: Text-to-SQL via Partial-Match Rewards and Verbal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.07159v1
- Date: Mon, 08 Sep 2025 19:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.093667
- Title: PaVeRL-SQL: Text-to-SQL via Partial-Match Rewards and Verbal Reinforcement Learning
- Title(参考訳): PaVeRL-SQL:部分マッチリワードと言語強化学習によるテキストからSQL
- Authors: Heng Hao, Wenjun Hu, Oxana Verkholyak, Davoud Ataee Tarzanagh, Baruch Gutow, Sima Didari, Masoud Faraki, Hankyu Moon, Seungjai Min,
- Abstract要約: 本稿では,emphPartial-Match RewardsとemphVerbal Reinforcement Learningを組み合わせたフレームワークであるemphPaVeRL-----について述べる。
パイプラインは、人気のあるText-to-ベンチマーク(Spider、Spider 2.0、BIRD)で、最先端(SOTA)結果を達成する。
- 参考スコア(独自算出の注目度): 10.353862232815844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-SQL models allow users to interact with a database more easily by generating executable SQL statements from natural-language questions. Despite recent successes on simpler databases and questions, current Text-to-SQL methods still suffer from low execution accuracy on industry-scale databases and complex questions involving domain-specific business logic. We present \emph{PaVeRL-SQL}, a framework that combines \emph{Partial-Match Rewards} and \emph{Verbal Reinforcement Learning} to drive self-improvement in reasoning language models (RLMs) for Text-to-SQL. To handle practical use cases, we adopt two pipelines: (1) a newly designed in-context learning framework with group self-evaluation (verbal-RL), using capable open- and closed-source large language models (LLMs) as backbones; and (2) a chain-of-thought (CoT) RL pipeline with a small backbone model (OmniSQL-7B) trained with a specially designed reward function and two-stage RL. These pipelines achieve state-of-the-art (SOTA) results on popular Text-to-SQL benchmarks -- Spider, Spider 2.0, and BIRD. For the industrial-level Spider2.0-SQLite benchmark, the verbal-RL pipeline achieves an execution accuracy 7.4\% higher than SOTA, and the CoT pipeline is 1.4\% higher. RL training with mixed SQL dialects yields strong, threefold gains, particularly for dialects with limited training data. Overall, \emph{PaVeRL-SQL} delivers reliable, SOTA Text-to-SQL under realistic industrial constraints. The code is available at https://github.com/PaVeRL-SQL/PaVeRL-SQL.
- Abstract(参考訳): テキストからSQLモデルにより、自然言語の質問から実行可能なSQLステートメントを生成することで、データベースとの対話がより容易になる。
最近の単純なデータベースや質問の成功にもかかわらず、現在のText-to-SQLメソッドは、業界規模のデータベースでの実行精度の低さと、ドメイン固有のビジネスロジックに関する複雑な問題に悩まされている。
テキストからSQLへの推論言語モデル(RLM)の自己改善を促進するために, \emph{Partial-Match Rewards} と \emph{Verbal Reinforcement Learning} を組み合わせたフレームワークである \emph{PaVeRL-SQL} を提案する。
実用的なユースケースを扱うために,(1)グループ自己評価(verbal-RL)を備えた新たに設計されたコンテキスト内学習フレームワーク,2)特別な設計された報酬関数と2段階のRLで訓練された小さなバックボーンモデル(OmniSQL-7B)を備えたチェーン・オブ・思想(CoT)RLパイプライン,の2つのパイプラインを採用する。
これらのパイプラインは、人気のあるText-to-SQLベンチマークであるSpider、Spider 2.0、BIRDで、最先端(SOTA)結果を達成する。
産業レベルのSpider2.0-SQLiteベンチマークでは、動詞-RLパイプラインはSOTAよりも実行精度7.4\%高く、CoTパイプラインは1.4\%高い。
混合SQL方言を用いたRLトレーニングでは、特に訓練データに制限のある方言では、強い3倍のゲインが得られる。
全体として、 \emph{PaVeRL-SQL} は、現実的な産業制約の下で信頼性の高い SOTA Text-to-SQL を提供する。
コードはhttps://github.com/PaVeRL-SQL/PaVeRL-SQLで入手できる。
関連論文リスト
- CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。
我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。
提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。
効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文 参考訳(メタデータ) (2025-07-08T14:17:07Z) - Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL [16.02851357789021]
本稿では,4つのベンチマークデータセットに対する推論がText2のパフォーマンスに与える影響について検討する。
汎用推論か否か、(2)SFT、タスク固有の推論トレースの有無、(3)RLは、異なる報酬関数の使用を探索する。
以上の結果から,ZSLによる汎用推論は複雑な Text2 の処理に有効でないことが示唆された。
論文 参考訳(メタデータ) (2025-04-21T13:05:26Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。