Fugu-MT 論文翻訳(概要): Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward

論文の概要: Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward

arxiv url: http://arxiv.org/abs/2505.12380v1
Date: Sun, 18 May 2025 11:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.201408
Title: Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward
Title（参考訳）: Graph-Reward-SQL: グラフマッチングとステップワイズ・リワードによるテキストからSQLへの実行自由強化学習
Authors: Han Weng, Boyi Liu, Yuanfeng Song, Dun Zeng, Yingxiang Yang, Yi Zhan, Longjie Cui, Xiaoming Yin, Yang Sun,
Abstract要約: テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。本稿では,GMNScore結果報酬モデルを用いたテキスト・ツー・RLファインチューニングフレームワークであるGraph-Reward-Rewardを提案する。
参考スコア（独自算出の注目度）: 12.196626575891546
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) has been widely adopted to enhance the performance of large language models (LLMs) on Text-to-SQL tasks. However, existing methods often rely on execution-based or LLM-based Bradley-Terry reward models. The former suffers from high execution latency caused by repeated database calls, whereas the latter imposes substantial GPU memory overhead, both of which significantly hinder the efficiency and scalability of RL pipelines. To this end, we propose a novel Text-to-SQL RL fine-tuning framework named Graph-Reward-SQL, which employs the GMNScore outcome reward model. We leverage SQL graph representations to provide accurate reward signals while significantly reducing inference time and GPU memory usage. Building on this foundation, we further introduce StepRTM, a stepwise reward model that provides intermediate supervision over Common Table Expression (CTE) subqueries. This encourages both functional correctness and structural clarity of SQL. Extensive comparative and ablation experiments on standard benchmarks, including Spider and BIRD, demonstrate that our method consistently outperforms existing reward models.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、テキストからSQLタスクにおける大規模言語モデル(LLM)の性能を高めるために広く採用されている。しかし、既存のメソッドは実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。前者はデータベース呼び出しの繰り返しによる実行遅延の増大に悩まされる一方、後者はGPUメモリのオーバーヘッドを大幅に減らし、どちらもRLパイプラインの効率とスケーラビリティを著しく損なう。そこで本研究では,GMNScore結果報酬モデルを用いた新しいテキスト-SQL RLファインチューニングフレームワークであるGraph-Reward-SQLを提案する。我々はSQLグラフ表現を利用して正確な報酬信号を提供しながら、推論時間とGPUメモリ使用量を大幅に削減する。この基盤の上に構築されたStepRTMは、CTEサブクエリの中間的な監視を提供する段階的な報酬モデルである。これにより、SQLの機能的正確性と構造的明確性の両方が促進される。 Spider や BIRD など,標準ベンチマークにおける大規模な比較およびアブレーション実験により,提案手法が既存の報酬モデルより一貫して優れていることを示す。

関連論文リスト

CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文参考訳（メタデータ） (2025-07-08T14:17:07Z)
STRuCT-LLM: Unifying Tabular and Graph Reasoning with Reinforcement Learning for Semantic Parsing [2.8977258426533115]
大規模言語モデル(LLM)をトレーニングするための統合フレームワークSTRuCT-LLMを提案する。我々のアプローチは、強化学習(RL)とチェーン・ソート監督(CoT)を組み合わせたテキスト・ツー・アウェアとテキスト・ツー・チェーファータスクを共同で最適化する。
論文参考訳（メタデータ） (2025-06-15T22:40:36Z)
Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文参考訳（メタデータ） (2025-05-22T23:33:47Z)
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning [0.12289361708127876]
この研究は、Text-to-the-taskを、大規模言語モデル(LLM)にデータの推論と操作を教えるための経路として再構成した。本稿では,テーブルフィールドをトラバースし,フィルタし,集約する方法をモデルに教える2段階フレームワークを提案する。提案手法は,BIRD や CRT-QA などの推論集約型データセットに対して,理論的に有意な向上を実現している。
論文参考訳（メタデータ） (2025-04-23T19:02:04Z)
STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。これらの知見は、推論強化トレーニングの可能性を強調している。
論文参考訳（メタデータ） (2025-02-19T08:58:44Z)
MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search [1.166711394125328]
Text-to-OTAは、NLP領域における基本的な課題である。モンテカルロ木探索を用いた新しいフレームワークMCTS-OTAを提案する。本稿では,反復中に事前情報を格納するトークンレベルのプレフィックスキャッシュ機構を提案する。
論文参考訳（メタデータ） (2025-01-28T00:52:23Z)
Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。 KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文参考訳（メタデータ） (2024-10-15T07:51:00Z)
RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。 In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-07-11T08:19:58Z)
Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文参考訳（メタデータ） (2023-08-29T14:59:54Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
Improving Text-to-SQL with Schema Dependency Learning [22.07452161565993]
実行誘導デコーディングは、推論プロセスを遅くし、多くの現実世界のアプリケーションに不満足なデータベース実行に依存している。質問とスキーマ間のインタラクションを効果的にキャプチャするネットワークをガイドするために、依存性ガイド付きマルチタスクテキストタスクモデル(SD)を紹介します。
論文参考訳（メタデータ） (2021-03-07T16:56:56Z)
IGSQL: Database Schema Interaction Graph Based Neural Model for Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2020-11-11T12:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。