論文の概要: ConstrainedSQL: Training LLMs for Text2SQL via Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.09693v1
- Date: Fri, 14 Nov 2025 01:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.420113
- Title: ConstrainedSQL: Training LLMs for Text2SQL via Constrained Reinforcement Learning
- Title(参考訳): ConstrainedSQL: 制約付き強化学習によるText2SQLのLLMトレーニング
- Authors: Weiqin Chen, Nhan Huu Pham, Michael Robert Glass, Long Hai Vu, Gaetano Rossiello, Dharmashankar Subramanian, Santiago Paternain,
- Abstract要約: 不適切な報酬は報酬のハッキングにつながる可能性がある。モデルが報酬構造内の抜け穴を利用して、タスクを真に解決することなく高いスコアを達成する。
この研究は、自然で解釈可能な報酬と制約信号を含むText2の制約付きRLフレームワークについて検討し、トレーニング中にそれらのトレードオフを動的にバランスさせる。
- 参考スコア(独自算出の注目度): 8.845655178975841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated significant promise in enhancing the reasoning capabilities of Text2SQL LLMs, especially with advanced algorithms such as GRPO and DAPO. However, the performance of these methods is highly sensitive to the design of reward functions. Inappropriate rewards can lead to reward hacking, where models exploit loopholes in the reward structure to achieve high scores without genuinely solving the task. This work considers a constrained RL framework for Text2SQL that incorporates natural and interpretable reward and constraint signals, while dynamically balancing trade-offs among them during the training. We establish the theoretical guarantees of our constrained RL framework and our numerical experiments on the well-known Text2SQL datasets substantiate the improvement of our approach over the state-of-the-art RL-trained LLMs.
- Abstract(参考訳): 強化学習(RL)は、特にGRPOやDAPOのような高度なアルゴリズムで、Text2SQL LLMの推論能力を向上する上で大きな可能性を証明している。
しかし,これらの手法の性能は報酬関数の設計に非常に敏感である。
不適切な報酬は報酬のハッキングにつながる可能性がある。モデルが報酬構造内の抜け穴を利用して、タスクを真に解決することなく高いスコアを達成する。
この研究は、自然で解釈可能な報酬と制約信号を組み込んだText2SQL用の制約付きRLフレームワークについて検討し、トレーニング中のトレードオフを動的にバランスさせる。
我々は、制約付きRLフレームワークの理論的保証と、よく知られたText2SQLデータセットに関する数値実験を確立し、最先端のRL学習LLMに対するアプローチの改善を裏付ける。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward [16.47355258999193]
テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。
既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。
本稿では,RLをベースとしたテキスト・ツー・スコア(Graph-Reward-RTM)のための新たな報酬モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-18T11:53:01Z) - Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL [13.215512957681185]
既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。
OpenAI o1のような最近の推論強化モデルの成功に触発されて、テキスト・ツー・サーベイ・タスクに特化して設計された、新たな部分報酬セットを提案する。
提案した報酬を用いたRL-onlyトレーニングは,教師付き微調整よりも高い精度と優れた一般化を継続的に達成できることを実証する。
論文 参考訳(メタデータ) (2025-03-29T17:29:30Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。