論文の概要: Reinforcing Code Generation: Improving Text-to-SQL with Execution-Based Learning
- arxiv url: http://arxiv.org/abs/2506.06093v1
- Date: Fri, 06 Jun 2025 13:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.498551
- Title: Reinforcing Code Generation: Improving Text-to-SQL with Execution-Based Learning
- Title(参考訳): コード生成の強化 - 実行ベース学習によるテキストからSQLへの改善
- Authors: Atharv Kulkarni, Vivek Srikumar,
- Abstract要約: 大規模言語モデル(LLM)を用いたコード生成の問題点について検討する。
RL-tuningは、問合せペアの形で弱い監督しか行わず、モデル生成sql符号の精度を31.49から49.83に改善し、誤り率を25.43%から14.71%に下げる。
- 参考スコア(独自算出の注目度): 29.132256439168323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the problem of code generation with a large language model (LLM), with a focus on generating SQL queries from natural language questions. We ask: Instead of using supervised fine tuning with text-code pairs, can we tune a model by having it interact with a database engine? We frame this problem as a reinforcement learning problem where the model receives execution-based feedback from the environment in the form of scalar rewards. These rewards penalize execution failures and assign positive values when a query returns a correct answer. We use the rewards within the Group Relative Policy Optimization (GRPO) framework. We use a tabular reasoning benchmark to test and evaluate our findings. We find that with only weak supervision in the form of question-answer pairs, RL-tuning improves the accuracy of model generated SQL code from 31.49 to 49.83 while reducing error percentage from 25.43% to 14.71%. This improvement allowed the model nearly match the performance performance to the larger SQLCoder-70B model. Our work demonstrates the potential of using execution-based feedback to improve symbolic reasoning capabilities of LLMs.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)を用いたコード生成の問題について検討し,自然言語問題からSQLクエリを生成することに着目した。
教師付き微調整とテキストコードペアを使う代わりに、データベースエンジンと対話させることでモデルをチューニングできますか?
我々は,この問題を,スカラー報酬という形で,モデルが環境から実行ベースのフィードバックを受け取る強化学習問題とみなす。
これらの報酬は実行障害をペナルティ化し、クエリが正しい回答を返すと正の値を割り当てる。
私たちは、グループ相対政策最適化(GRPO)フレームワークで報酬を使用します。
結果の検証と評価には,表式推論ベンチマークを用いる。
RL-tuningは、問合せペアの形で弱い監督しか行わず、モデル生成SQLコードの精度を31.49から49.83に改善し、エラー率を25.43%から14.71%に下げる。
この改良により、モデルの性能はより大きなSQLCoder-70Bモデルにほぼ一致した。
本研究は, LLMのシンボリック推論能力を向上させるために, 実行ベースフィードバックを利用することの可能性を示す。
関連論文リスト
- CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning [0.0]
自己整合性と自己整合性を統合する新しい手法であるCSC-を提案する。
我々の3Bモデルは65.28%の精度で実行し、7Bモデルは69.19%の精度で実行した。
BIRDでは,3Bモデルが65.28%,7Bモデルが69.19%を達成している。
論文 参考訳(メタデータ) (2025-05-19T15:52:19Z) - ReEx-SQL: Reasoning with Execution-Aware Reinforcement Learning for Text-to-SQL [21.29343406227956]
実行フィードバックは、大規模言語モデルを正確に推論し、信頼性の高いクエリを生成するために不可欠である。
既存の方法は、修正や選択のためのポストホック信号としてのみ実行フィードバックを処理し、生成プロセスに統合することができない。
本稿では,ReEx-Reasoningを提案する。ReEx-Reasoningは,デコード中にモデルがデータベースと対話し,実行フィードバックに基づいて推論を動的に調整できるフレームワークである。
論文 参考訳(メタデータ) (2025-05-19T06:46:47Z) - Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward [12.196626575891546]
テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。
既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。
本稿では,GMNScore結果報酬モデルを用いたテキスト・ツー・RLファインチューニングフレームワークであるGraph-Reward-Rewardを提案する。
論文 参考訳(メタデータ) (2025-05-18T11:53:01Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Analyzing the Effectiveness of Large Language Models on Text-to-SQL
Synthesis [4.412170175171256]
本研究では,大規模言語モデルを用いたテキスト・ツー・プログラム合成における様々なアプローチについて検討する。
目標は、データベーススキーマと共に自然言語の質問を入力し、正しいSELECTクエリを出力することであった。
論文 参考訳(メタデータ) (2024-01-22T22:05:42Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。