論文の概要: ReEx-SQL: Reasoning with Execution-Aware Reinforcement Learning for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2505.12768v1
- Date: Mon, 19 May 2025 06:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.452564
- Title: ReEx-SQL: Reasoning with Execution-Aware Reinforcement Learning for Text-to-SQL
- Title(参考訳): ReEx-SQL: テキストからSQLへの実行対応強化学習による推論
- Authors: Yaxun Dai, Wenxuan Xie, Xialie Zhuang, Tianyu Yang, Yiying Yang, Haiqin Yang, Yuhang Zhao, Pingfu Chao, Wenhao Jiang,
- Abstract要約: 実行フィードバックは、大規模言語モデルを正確に推論し、信頼性の高いクエリを生成するために不可欠である。
既存の方法は、修正や選択のためのポストホック信号としてのみ実行フィードバックを処理し、生成プロセスに統合することができない。
本稿では,ReEx-Reasoningを提案する。ReEx-Reasoningは,デコード中にモデルがデータベースと対話し,実行フィードバックに基づいて推論を動的に調整できるフレームワークである。
- 参考スコア(独自算出の注目度): 21.29343406227956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Text-to-SQL, execution feedback is essential for guiding large language models (LLMs) to reason accurately and generate reliable SQL queries. However, existing methods treat execution feedback solely as a post-hoc signal for correction or selection, failing to integrate it into the generation process. This limitation hinders their ability to address reasoning errors as they occur, ultimately reducing query accuracy and robustness. To address this issue, we propose ReEx-SQL (Reasoning with Execution-Aware Reinforcement Learning), a framework for Text-to-SQL that enables models to interact with the database during decoding and dynamically adjust their reasoning based on execution feedback. ReEx-SQL introduces an execution-aware reasoning paradigm that interleaves intermediate SQL execution into reasoning paths, facilitating context-sensitive revisions. It achieves this through structured prompts with markup tags and a stepwise rollout strategy that integrates execution feedback into each stage of generation. To supervise policy learning, we develop a composite reward function that includes an exploration reward, explicitly encouraging effective database interaction. Additionally, ReEx-SQL adopts a tree-based decoding strategy to support exploratory reasoning, enabling dynamic expansion of alternative reasoning paths. Notably, ReEx-SQL achieves 88.8% on Spider and 64.9% on BIRD at the 7B scale, surpassing the standard reasoning baseline by 2.7% and 2.6%, respectively. It also shows robustness, achieving 85.2% on Spider-Realistic with leading performance. In addition, its tree-structured decoding improves efficiency and performance over linear decoding, reducing inference time by 51.9% on the BIRD development set.
- Abstract(参考訳): Text-to-SQLでは、大規模言語モデル(LLM)を正確に推論し、信頼性の高いSQLクエリを生成するための実行フィードバックが不可欠である。
しかし、既存の方法は、修正や選択のためのポストホック信号としてのみ実行フィードバックを処理し、生成プロセスに統合することができない。
この制限により、推論エラーが発生すると対処できなくなり、究極的にはクエリの精度と堅牢性が低下する。
この問題を解決するために,テキスト・トゥ・SQLのためのフレームワークであるReEx-SQL(Reasoning with Execution-Aware Reinforcement Learning)を提案する。
ReEx-SQLは、中間SQL実行を推論パスにインターリーブする実行対応推論パラダイムを導入し、コンテキストに敏感なリビジョンを容易にする。
これはマークアップタグと、生成の各ステージに実行フィードバックを統合する段階的なロールアウト戦略によって、構造化プロンプトによって実現される。
政策学習を監督するために,探索報酬を含む複合報酬関数を開発した。
さらに、ReEx-SQLは探索推論をサポートするためにツリーベースのデコード戦略を採用し、代替推論パスの動的拡張を可能にする。
特に、ReEx-SQLは7Bスケールでスパイダーの88.8%、BIRDの64.9%を達成し、それぞれ標準推論基準の2.7%と2.6%を上回っている。
またロバスト性も示しており、主役はスパイダー・リアリスティックで85.2%を達成している。
さらに、木構造デコードにより、線形デコードよりも効率と性能が向上し、BIRD開発セットの推論時間が51.9%削減された。
関連論文リスト
- Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards [25.810871864483076]
外的プロセス・リワード・モデル(PRM)は、微粒な監督を提供するために訓練中に導入することができる。
本稿では,テキスト・ツー・ザ・ライティング・プロセスにPRMを効果的に組み込む方法について検討するフレームワークであるReward-BIRDを提案する。
論文 参考訳(メタデータ) (2025-05-07T08:32:22Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。
これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。
実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文 参考訳(メタデータ) (2025-02-19T07:51:50Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。