論文の概要: MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2510.25510v1
- Date: Wed, 29 Oct 2025 13:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.594401
- Title: MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL
- Title(参考訳): MTIR-SQL: テキストからSQLへのマルチターンツール統合推論強化学習
- Authors: Zekun Xu, Siyu Xia, Chuhuai Yue, Jiajun Chai, Mingxue Tian, Xiaohan Wang, Wei Lin, Haoxuan Li, Guojun Yin,
- Abstract要約: 大規模言語モデル (LLM) は、テキストから認識するタスクにますます使われている。
既存のメソッドは、リアルタイムエラー訂正を制限する静的な実行フィードバックに依存している。
本稿では, MTIR-IDERを提案する。
- 参考スコア(独自算出の注目度): 46.37961458768655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) are increasingly used in Text-to-SQL tasks, Reinforcement Learning (RL) has become a common method for improving performance. Existing methods primarily rely on static execution feedback, which restricts real-time error correction. However, integrating multi-turn tool invocation along with dynamic feedback could significantly improve adaptability and robustness, ultimately enhancing model performance. To address these issues, we propose MTIR-SQL, an innovative Multi-turn Tool-Integrated Reasoning reinforcement learning framework for Text-to-SQL. Our approach introduces an execution-aware multi-turn reasoning paradigm that seamlessly incorporates database execution feedback at each reasoning step, enabling context-sensitive query generation and progressive refinement throughout the reasoning process. The framework extends the GRPO algorithm to accommodate complex multi-turn interaction scenarios. Considering the training instability characteristics of MTIR and the potential for significant Deviation of model distribution from the initial model, we enhance the GRPO algorithm by adding a trajectory filtering mechanism and removing KL loss constraints. Experimental results demonstrate that MTIR-SQL, with 4B parameters, achieves \textbf{64.4}\% accuracy in the BIRD Dev and 84.6% execution accuracy in the SPIDER Dev, significantly outperforming existing approaches.
- Abstract(参考訳): 大規模言語モデル (LLM) がテキストからSQLへのタスクでますます使われているため、強化学習 (RL) はパフォーマンス向上の一般的な方法となっている。
既存のメソッドは主に静的な実行フィードバックに依存しており、リアルタイムのエラー訂正を制限している。
しかし、動的フィードバックとともにマルチターンツール呼び出しを統合することで、適応性と堅牢性が大幅に向上し、最終的にはモデルパフォーマンスが向上する。
これらの課題に対処するため,テキストからSQLへの強化学習フレームワークMTIR-SQLを提案する。
提案手法では,各推論ステップでデータベース実行フィードバックをシームレスに組み込んだ実行対応マルチターン推論パラダイムを導入し,推論プロセスを通じてコンテキストに敏感なクエリ生成とプログレッシブリファインメントを実現する。
このフレームワークは、複雑なマルチターンインタラクションシナリオに対応するためにGRPOアルゴリズムを拡張している。
MTIRのトレーニング不安定性特性と初期モデルからモデル分布を著しく逸脱させる可能性を考慮して,軌道フィルタリング機構を追加し,KL損失制約を除去することによりGRPOアルゴリズムを改良する。
実験の結果、MTIR-SQLは4Bパラメータを持ち、BIRD Dev では \textbf{64.4}\% 、SPIDER Dev では84.6% の精度を達成し、既存のアプローチよりも大幅に優れていた。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。
このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文 参考訳(メタデータ) (2025-10-10T01:15:57Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards [25.810871864483076]
外的プロセス・リワード・モデル(PRM)は、微粒な監督を提供するために訓練中に導入することができる。
本稿では,テキスト・ツー・ザ・ライティング・プロセスにPRMを効果的に組み込む方法について検討するフレームワークであるReward-BIRDを提案する。
論文 参考訳(メタデータ) (2025-05-07T08:32:22Z) - Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL [13.215512957681185]
既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。
OpenAI o1のような最近の推論強化モデルの成功に触発されて、テキスト・ツー・サーベイ・タスクに特化して設計された、新たな部分報酬セットを提案する。
提案した報酬を用いたRL-onlyトレーニングは,教師付き微調整よりも高い精度と優れた一般化を継続的に達成できることを実証する。
論文 参考訳(メタデータ) (2025-03-29T17:29:30Z) - Reliable Text-to-SQL with Adaptive Abstention [21.07332675929629]
本稿では,提案手法を組み込むことにより,クエリ生成の信頼性を向上させる新しいフレームワークを提案する。
我々はBIRDベンチマークの総合的な実験を通じてアプローチを検証するとともに、堅牢性と信頼性の大幅な向上を実証した。
論文 参考訳(メタデータ) (2025-01-18T19:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。