論文の概要: Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
- arxiv url: http://arxiv.org/abs/2503.23157v1
- Date: Sat, 29 Mar 2025 17:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:21.225402
- Title: Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
- Title(参考訳): Reasoning-SQL: Reinforcement Learning with SQL Tailored partial Rewards for Reasoning-Enhanced Text-to-SQL
- Authors: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik,
- Abstract要約: 既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。
OpenAI o1のような最近の推論強化モデルの成功に触発されて、テキスト・ツー・サーベイ・タスクに特化して設計された、新たな部分報酬セットを提案する。
提案した報酬を用いたRL-onlyトレーニングは,教師付き微調整よりも高い精度と優れた一般化を継続的に達成できることを実証する。
- 参考スコア(独自算出の注目度): 13.215512957681185
- License:
- Abstract: Text-to-SQL is a challenging task involving multiple reasoning-intensive subtasks, including natural language understanding, database schema comprehension, and precise SQL query formulation. Existing approaches often rely on handcrafted reasoning paths with inductive biases that can limit their overall effectiveness. Motivated by the recent success of reasoning-enhanced models such as DeepSeek R1 and OpenAI o1, which effectively leverage reward-driven self-exploration to enhance reasoning capabilities and generalization, we propose a novel set of partial rewards tailored specifically for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback, n-gram similarity, and syntax check, explicitly designed to address the reward sparsity issue prevalent in reinforcement learning (RL). Leveraging group relative policy optimization (GRPO), our approach explicitly encourages large language models (LLMs) to develop intrinsic reasoning skills necessary for accurate SQL query generation. With models of different sizes, we demonstrate that RL-only training with our proposed rewards consistently achieves higher accuracy and superior generalization compared to supervised fine-tuning (SFT). Remarkably, our RL-trained 14B-parameter model significantly outperforms larger proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD benchmark. These highlight the efficacy of our proposed RL-training framework with partial rewards for enhancing both accuracy and reasoning capabilities in Text-to-SQL tasks.
- Abstract(参考訳): Text-to-SQLは、自然言語理解、データベーススキーマの理解、SQLクエリの正確な定式化など、複数の推論集約サブタスクを含む、困難なタスクである。
既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。
近年のDeepSeek R1やOpenAI o1のような推論強化モデルの成功により、推論能力と一般化を高めるために報酬駆動型の自己探索を効果的に活用し、テキスト・トゥ・SQLタスクに特化して最適化された新しい部分報酬セットを提案する。
私たちの報酬セットには、スキーマリンク、AIフィードバック、n-gram類似性、構文チェックが含まれています。
グループ相対ポリシー最適化(GRPO)を活用することで、我々は大規模言語モデル(LLM)にSQLクエリ生成に必要な固有の推論スキルを開発することを強く推奨する。
異なるサイズのモデルを用いて、提案した報酬を用いたRL-onlyトレーニングは、教師付き微調整(SFT)と比較して、高い精度と優れた一般化を一貫して達成することを示した。
注目すべきは、我々のRLトレーニング14Bパラメータモデルは、より大きなプロプライエタリモデル、例えば、o3-miniを4%、Gemini-1.5-Pro-002をBIRDベンチマークで3%上回ったことです。
これらのことは,テキスト対SQLタスクにおける精度と推論能力の両面で向上する部分的な報酬を伴う,提案したRLトレーニングフレームワークの有効性を強調している。
関連論文リスト
- STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Reliable Text-to-SQL with Adaptive Abstention [21.07332675929629]
本稿では,提案手法を組み込むことにより,クエリ生成の信頼性を向上させる新しいフレームワークを提案する。
我々はBIRDベンチマークの総合的な実験を通じてアプローチを検証するとともに、堅牢性と信頼性の大幅な向上を実証した。
論文 参考訳(メタデータ) (2025-01-18T19:36:37Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Leveraging Prior Experience: An Expandable Auxiliary Knowledge Base for Text-to-SQL [0.5735035463793009]
大規模言語モデル(LLM)は多くのタスクにまたがる優れた問題解決スキルを示すが、テキスト・トゥ・コンテクストなど、下流の様々なアプリケーションでは人間に比較すると性能が劣っている。
LPE-Leveragingは,微調整を必要とせずに連続的な学習を可能にし,LLMを増強する新しいフレームワークである。
実験結果から,この連続学習手法が性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-11-20T12:03:17Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。