論文の概要: FINER-SQL: Boosting Small Language Models for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2605.03465v1
- Date: Tue, 05 May 2026 07:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.827049
- Title: FINER-SQL: Boosting Small Language Models for Text-to-SQL
- Title(参考訳): FINER-SQL: テキストからSQLへの小さな言語モデルの強化
- Authors: Thanh Dat Hoang, Thanh Trung Huynh, Matthias Weidlich, Thanh Tam Nguyen, Tong Chen, Hongzhi Yin, Quoc Viet Hung Nguyen,
- Abstract要約: 大規模言語モデルは、高い計算コスト、長いレイテンシ、データプライバシの懸念に悩まされる。
自然な代替手段は、効率的でプライベートなオンプレミスデプロイメントを可能にする、小さな言語モデルを使用することだ。
スケーラブルで再利用可能な強化学習フレームワークであるFINER-sqlを提案する。
- 参考スコア(独自算出の注目度): 40.19592881059662
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models have driven major advances in Text-to-SQL generation. However, they suffer from high computational cost, long latency, and data privacy concerns, which make them impractical for many real-world applications. A natural alternative is to use small language models (SLMs), which enable efficient and private on-premise deployment. Yet, SLMs often struggle with weak reasoning and poor instruction following. Conventional reinforcement learning methods based on sparse binary rewards (0/1) provide little learning signal when the generated SQLs are incorrect, leading to unstable or collapsed training. To overcome these issues, we propose FINER-SQL, a scalable and reusable reinforcement learning framework that enhances SLMs through fine-grained execution feedback. Built on group relative policy optimization, FINER-SQL replaces sparse supervision with dense and interpretable rewards that offer continuous feedback even for incorrect SQLs. It introduces two key reward functions: a memory reward, which aligns reasoning with verified traces for semantic stability, and an atomic reward, which measures operation-level overlap to grant partial credit for structurally correct but incomplete SQLs. This approach transforms discrete correctness into continuous learning, enabling stable, critic-free optimization. Experiments on the BIRD and Spider benchmarks show that FINER-SQL achieves up to 67.73\% and 85\% execution accuracy with a 3B model -- matching much larger LLMs while reducing inference latency to 5.57~s/sample. These results highlight a cost-efficient and privacy-preserving path toward high-performance Text-to-SQL generation. Our code is available at https://github.com/thanhdath/finer-sql.
- Abstract(参考訳): 大規模言語モデルは、Text-to-SQL生成に大きな進歩をもたらした。
しかし、彼らは高い計算コスト、長いレイテンシ、データプライバシの懸念に悩まされており、多くの現実世界のアプリケーションでは実用的ではない。
自然な代替手段は、効率よくプライベートなオンプレミスのデプロイを可能にする、小さな言語モデル(SLM)を使用することである。
しかし、SLMは弱い推論と弱い指示に苦しむことが多い。
余分な二分報酬(0/1)に基づく従来の強化学習手法は、生成したSQLが正しくない場合にほとんど学習信号を提供しず、不安定あるいは故障したトレーニングにつながる。
これらの問題を克服するために、我々は、細粒度な実行フィードバックによってSLMを強化するスケーラブルで再利用可能な強化学習フレームワークであるFINER-SQLを提案する。
グループ相対的なポリシー最適化に基づいて構築されたFINER-SQLは、スパース監視を、不正なSQLであっても継続的なフィードバックを提供する、密で解釈可能な報酬に置き換える。
セマンティック安定性の検証されたトレースと推論を一致させるメモリ報酬関数と、構造的に正しいが不完全なSQLに対して部分クレジットを与える操作レベルのオーバーラップを測定するアトミック報酬という2つの重要な報酬関数が導入されている。
このアプローチは離散的正しさを連続学習に変換し、安定で批判のない最適化を可能にする。
BIRDとSpiderベンチマークの実験によると、FINER-SQLは最大67.73\%と85\%の実行精度を3Bモデルで達成している。
これらの結果は、高性能テキスト-SQL生成へのコスト効率とプライバシ保護の道を強調している。
私たちのコードはhttps://github.com/thanhdath/finer-sql.comで公開されています。
関連論文リスト
- SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL [20.49395306069103]
テキスト・ツー・ワン・ジェネレーションのためのマルチターン強化学習(RL)エージェント・フレームワークを提案する。
1ショットでクエリを生成するのではなく、SQL-Trailはデータベース環境と対話し、実行フィードバックを使用して予測を反復的に洗練する。
提案手法は, エージェントの相互作用深度を問合せ難易度に合わせるための適応的なターン予算配分機構と, sqlの正しさと効率的な探索を両立させる複合報酬パネルの2つを主眼とする。
論文 参考訳(メタデータ) (2026-01-25T05:16:52Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - SLM-SQL: An Exploration of Small Language Models for Text-to-SQL [0.0]
小型言語モデル(SLM)は、エッジデプロイメントに適した推論速度と適合性に固有のアドバンテージを提供する。
ポストトレーニング技術の最近の進歩を活用して、Textto- Applicationsを探索する。
実験により,本手法の有効性と一般化性について検証した。
論文 参考訳(メタデータ) (2025-07-30T08:29:07Z) - CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。
我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。
提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。
効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文 参考訳(メタデータ) (2025-07-08T14:17:07Z) - Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search [1.166711394125328]
Text-to-OTAは、NLP領域における基本的な課題である。
モンテカルロ木探索を用いた新しいフレームワークMCTS-OTAを提案する。
本稿では,反復中に事前情報を格納するトークンレベルのプレフィックスキャッシュ機構を提案する。
論文 参考訳(メタデータ) (2025-01-28T00:52:23Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。