論文の概要: SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2601.17699v1
- Date: Sun, 25 Jan 2026 05:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.220219
- Title: SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL
- Title(参考訳): SQL-Trail: テキストからSQLへのインターリーブフィードバックを備えたマルチスレッド強化学習
- Authors: Harper Hua, Zhen Han, Zhengyuan Shen, Jeremy Lee, Patrick Guan, Qi Zhu, Sullam Jeoung, Yueyan Chen, Yunfei Bai, Shuai Wang, Vassilis Ioannidis, Huzefa Rangwala,
- Abstract要約: テキスト・ツー・ワン・ジェネレーションのためのマルチターン強化学習(RL)エージェント・フレームワークを提案する。
1ショットでクエリを生成するのではなく、SQL-Trailはデータベース環境と対話し、実行フィードバックを使用して予測を反復的に洗練する。
提案手法は, エージェントの相互作用深度を問合せ難易度に合わせるための適応的なターン予算配分機構と, sqlの正しさと効率的な探索を両立させる複合報酬パネルの2つを主眼とする。
- 参考スコア(独自算出の注目度): 20.49395306069103
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While large language models (LLMs) have substantially improved Text-to-SQL generation, a pronounced gap remains between AI systems and human experts on challenging benchmarks such as BIRD-SQL. We argue this gap stems largely from the prevailing single-pass paradigm, which lacks the iterative reasoning, schema exploration, and error-correction behaviors that humans naturally employ. To address this limitation, we introduce SQL-Trail, a multi-turn reinforcement learning (RL) agentic framework for Text-to-SQL. Rather than producing a query in one shot, SQL-Trail interacts with the database environment and uses execution feedback to iteratively refine its predictions. Our approach centers on two key ideas: (i) an adaptive turn-budget allocation mechanism that scales the agent's interaction depth to match question difficulty, and (ii) a composite reward panel that jointly incentivizes SQL correctness and efficient exploration. Across benchmarks, SQL-Trail sets a new state of the art and delivers strong data efficiency--up to 18x higher than prior single-pass RL state-of-the-art methods. Notably, our 7B and 14B models outperform substantially larger proprietary systems by 5% on average, underscoring the effectiveness of interactive, agentic workflows for robust Text-to-SQL generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト-SQL生成を大幅に改善しているが、BIRD-SQLのような挑戦的なベンチマークに関して、AIシステムと人間の専門家の間には、明らかなギャップが残っている。
このギャップは、人間が自然に採用する反復的推論、スキーマ探索、エラー訂正行動が欠如している、一般的なシングルパスパラダイムに大きく起因している、と我々は主張する。
この制限に対処するため,テキスト・トゥ・SQLのためのマルチターン強化学習(RL)エージェントフレームワークであるSQL-Trailを紹介した。
1ショットでクエリを生成するのではなく、SQL-Trailはデータベース環境と対話し、実行フィードバックを使用して予測を反復的に洗練する。
私たちのアプローチは2つの重要なアイデアに重点を置いています。
一 エージェントの相互作用深度を質問の難易度に合わせるための適応的なターン予算配分機構
(ii)SQLの正しさと効率的な探索を両立させる複合報酬パネル。
ベンチマーク全体を通じて、SQL-Trailは、新しい最先端をセットし、強力なデータ効率を提供する。
特に、我々の7Bと14Bモデルは、テキストからSQL生成のための対話的でエージェント的なワークフローの有効性を、平均して5%大きなプロプライエタリシステムよりも優れています。
関連論文リスト
- Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文 参考訳(メタデータ) (2025-12-28T02:25:33Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。
このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文 参考訳(メタデータ) (2025-10-10T01:15:57Z) - HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration [1.3927943269211591]
テキスト・ツー・ジェネレーションは自然言語とデータベースのギャップを埋め、ユーザーは専門知識を必要とせずにデータをクエリできる。
履歴クエリログを利用した新しいヒント生成機構を組み込んだパイプラインHI-theを提案する。
先行クエリを解析することにより、マルチテーブルおよびネストされた操作の複雑さを扱うことに焦点を当てたコンテキストヒントを生成する。
提案手法は,LCM生成クエリのクエリ精度を大幅に向上し,呼び出しやレイテンシの面で効率性を確保した。
論文 参考訳(メタデータ) (2025-06-11T12:07:55Z) - MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search [1.166711394125328]
Text-to-OTAは、NLP領域における基本的な課題である。
モンテカルロ木探索を用いた新しいフレームワークMCTS-OTAを提案する。
本稿では,反復中に事前情報を格納するトークンレベルのプレフィックスキャッシュ機構を提案する。
論文 参考訳(メタデータ) (2025-01-28T00:52:23Z) - Interactive-T2S: Multi-Turn Interactions for Text-to-SQL with Large Language Models [9.914489049993495]
本稿では,データベースとの直接対話を通じてクエリを生成するフレームワークであるInteractive-T2Sを紹介する。
フレームワーク内のステップワイズ推論プロセスを示すための詳細な例を開発してきた。
BIRD-Devデータセットを用いた実験により,本手法が最先端の成果を達成できたのは2つの例に過ぎなかった。
論文 参考訳(メタデータ) (2024-08-09T07:43:21Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。