論文の概要: Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward
- arxiv url: http://arxiv.org/abs/2505.12380v1
- Date: Sun, 18 May 2025 11:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.201408
- Title: Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward
- Title(参考訳): Graph-Reward-SQL: グラフマッチングとステップワイズ・リワードによるテキストからSQLへの実行自由強化学習
- Authors: Han Weng, Boyi Liu, Yuanfeng Song, Dun Zeng, Yingxiang Yang, Yi Zhan, Longjie Cui, Xiaoming Yin, Yang Sun,
- Abstract要約: テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。
既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。
本稿では,GMNScore結果報酬モデルを用いたテキスト・ツー・RLファインチューニングフレームワークであるGraph-Reward-Rewardを提案する。
- 参考スコア(独自算出の注目度): 12.196626575891546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has been widely adopted to enhance the performance of large language models (LLMs) on Text-to-SQL tasks. However, existing methods often rely on execution-based or LLM-based Bradley-Terry reward models. The former suffers from high execution latency caused by repeated database calls, whereas the latter imposes substantial GPU memory overhead, both of which significantly hinder the efficiency and scalability of RL pipelines. To this end, we propose a novel Text-to-SQL RL fine-tuning framework named Graph-Reward-SQL, which employs the GMNScore outcome reward model. We leverage SQL graph representations to provide accurate reward signals while significantly reducing inference time and GPU memory usage. Building on this foundation, we further introduce StepRTM, a stepwise reward model that provides intermediate supervision over Common Table Expression (CTE) subqueries. This encourages both functional correctness and structural clarity of SQL. Extensive comparative and ablation experiments on standard benchmarks, including Spider and BIRD, demonstrate that our method consistently outperforms existing reward models.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、テキストからSQLタスクにおける大規模言語モデル(LLM)の性能を高めるために広く採用されている。
しかし、既存のメソッドは実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。
前者はデータベース呼び出しの繰り返しによる実行遅延の増大に悩まされる一方、後者はGPUメモリのオーバーヘッドを大幅に減らし、どちらもRLパイプラインの効率とスケーラビリティを著しく損なう。
そこで本研究では,GMNScore結果報酬モデルを用いた新しいテキスト-SQL RLファインチューニングフレームワークであるGraph-Reward-SQLを提案する。
我々はSQLグラフ表現を利用して正確な報酬信号を提供しながら、推論時間とGPUメモリ使用量を大幅に削減する。
この基盤の上に構築されたStepRTMは、CTEサブクエリの中間的な監視を提供する段階的な報酬モデルである。
これにより、SQLの機能的正確性と構造的明確性の両方が促進される。
Spider や BIRD など,標準ベンチマークにおける大規模な比較およびアブレーション実験により,提案手法が既存の報酬モデルより一貫して優れていることを示す。
関連論文リスト
- Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning [0.12289361708127876]
この研究は、Text-to-the-taskを、大規模言語モデル(LLM)にデータの推論と操作を教えるための経路として再構成した。
本稿では,テーブルフィールドをトラバースし,フィルタし,集約する方法をモデルに教える2段階フレームワークを提案する。
提案手法は,BIRD や CRT-QA などの推論集約型データセットに対して,理論的に有意な向上を実現している。
論文 参考訳(メタデータ) (2025-04-23T19:02:04Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Improving Text-to-SQL with Schema Dependency Learning [22.07452161565993]
実行誘導デコーディングは、推論プロセスを遅くし、多くの現実世界のアプリケーションに不満足なデータベース実行に依存している。
質問とスキーマ間のインタラクションを効果的にキャプチャするネットワークをガイドするために、依存性ガイド付きマルチタスクテキストタスクモデル(SD)を紹介します。
論文 参考訳(メタデータ) (2021-03-07T16:56:56Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。