論文の概要: Beyond Query-Level Comparison: Fine-Grained Reinforcement Learning for Text-to-SQL with Automated Interpretable Critiques
- arxiv url: http://arxiv.org/abs/2511.22258v1
- Date: Thu, 27 Nov 2025 09:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.48405
- Title: Beyond Query-Level Comparison: Fine-Grained Reinforcement Learning for Text-to-SQL with Automated Interpretable Critiques
- Title(参考訳): クエリレベル比較を超えて: 自動解釈可能な批評家によるテキストからSQLへの細粒度強化学習
- Authors: Guifeng Wang, Yuanfeng Song, Meng Yang, Tao Zhu, Xiaoming Yin, Xing Chen,
- Abstract要約: 本稿では,クエリ固有自動評価のための新しい生成判断モデルであるRuCo-Cを提案する。
提案フレームワークはまず,人為的アノテーションのためのクエリ固有評価文を生成し,それを解釈可能な批評にリンクする。
- 参考スコア(独自算出の注目度): 14.217555181784293
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-SQL, a pivotal natural language processing (NLP) task that converts textual queries into executable SQL, has seen substantial progress in recent years. However, existing evaluation and reward mechanisms used to train and assess the text-to-SQL models remain a critical bottleneck. Current approaches heavily rely on manually annotated gold SQL queries, which are costly to produce and impractical for large-scale evaluation. More importantly, most reinforcement learning (RL) methods in text-to-SQL leverage only the final binary execution outcome as the reward signal, a coarse-grained supervision that overlooks detailed structural and semantic errors from the perspective of rubrics. To address these challenges, we propose RuCo-C, a novel generative judge model for fine-grained, query-specific automatic evaluation using interpretable critiques without human intervention. Our framework first automatically generates query-specific evaluation rubrics for human-free annotation, linking them to interpretable critiques. Subsequently, it integrates densified reward feedback through a "progressive exploration" strategy during the RL training process, which dynamically adjusts the rewards to enhance the model's performance. Comprehensive experiments demonstrate that RuCo-C outperforms existing methods in text-to-SQL evaluation, yielding significant performance gains.
- Abstract(参考訳): テキストクエリを実行可能なSQLに変換する、重要な自然言語処理(NLP)タスクであるText-to-SQLは、近年大きく進歩している。
しかしながら、テキスト-SQLモデルのトレーニングと評価に使用されている既存の評価と報酬メカニズムは、依然として重要なボトルネックである。
現在のアプローチは手動でアノテートされたゴールドSQLクエリに大きく依存している。
さらに重要なことは、テキストからSQLへの強化学習(RL)手法は、最終的なバイナリ実行結果のみを報酬信号として活用していることだ。
これらの課題に対処するために,人間の介入を伴わない解釈可能な批評を用いた,きめ細かなクエリ特異的自動評価のための新しい生成判断モデルRuCo-Cを提案する。
我々のフレームワークは、まず、人為的アノテーションのためのクエリ固有の評価ルーブリックを自動生成し、それらを解釈可能な批評にリンクする。
その後、RLトレーニングプロセス中に「プログレッシブな探索」戦略を通じて、密度の高い報酬フィードバックを統合し、モデルの性能を高めるために報酬を動的に調整する。
総合的な実験により、RuCo-Cはテキスト-SQL評価において既存のメソッドよりも優れており、パフォーマンスが大幅に向上することが示された。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO [0.6374763930914525]
そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
論文 参考訳(メタデータ) (2025-06-11T04:04:13Z) - Rationalization Models for Text-to-SQL [13.792561265515003]
本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。
プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。
その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-02-10T18:38:57Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。