論文の概要: Residual Skill Optimization for Text-to-SQL Ensembles
- arxiv url: http://arxiv.org/abs/2605.21792v1
- Date: Wed, 20 May 2026 22:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.012863
- Title: Residual Skill Optimization for Text-to-SQL Ensembles
- Title(参考訳): テキスト-SQLアンサンブルの残留スキル最適化
- Authors: Jiongli Zhu, Haoquan Guan, Parjanya Prajakta Prashant, Nikki Lijing Kuang, Seyedeh Baharan Khatami, Canwen Xu, Xiaodong Yu, Yingyu Lin, Zhewei Yao, Yuxiong He, Babak Salimi,
- Abstract要約: そこで本研究では,モデル微調整を伴わずに,補完的なエージェントテキスト対アンサンブルを構築する残留スキル最適化フレームワークであるDivSkillを提案する。
それぞれの新しいスキルは、現在のスキルアンサンブルが失敗する例に基づいて最適化されており、Pass@Kへの限界的な貢献を確実にターゲットとしている。
Spider2-Liteでは、DivSkillはSnowflakeで+11.1ポイント、BigQueryで+8.3までの精度を最強アンサンブルベースラインで向上させる。
Skillsは、方言(Snowflake、BigQuery、pts)とBIRD-Critic (+2.6)のような異なるタスクの定式化に再訓練することなく、単一の方言の移動を最適化した。
- 参考スコア(独自算出の注目度): 37.13373780149542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL ensembles improve over single-candidate generation by drawing multiple SQL candidates and selecting one, but their effectiveness is bounded by Pass@K, the probability that at least one of K candidates is correct. Existing methods source diversity heuristically through stochastic decoding or prompt variants, leaving candidate sets dominated by correlated failures. We present DivSkill-SQL, a residual skill optimization framework that builds complementary agentic Text-to-SQL ensembles without model fine-tuning: each new skill is optimized on examples the current skill ensemble fails on, provably targeting its marginal contribution to Pass@K. On Spider2-Lite, DivSkill-SQL improves selected accuracy by up to +11.1 points on Snowflake and +8.3 on BigQuery over the strongest ensemble baseline, with consistent gains across two base models (Opus-4.6 and GPT-5.4). Skills optimized on a single dialect transfer without retraining across dialects (Snowflake, BigQuery, SQLite) and to a different task formulation, such as BIRD-Critic (+2.6 pts). Error diagnostics show up to 3x fewer hallucinated schema references and function calls, indicating that gains come from genuinely reliable complementary skills rather than surface-form variation.
- Abstract(参考訳): テキストからSQLへのアンサンブルは、複数のSQL候補を描画して1つを選択することで、シングル候補生成よりも改善されるが、その有効性はPass@Kによって制限されている。
既存の手法は確率的復号法や変分法によって多様性をヒューリスティックに導き出し、候補集合は相関する失敗に支配される。
新しいスキルは、現在のスキルアンサンブルが失敗する例に基づいて最適化され、Pass@Kへの限界的な貢献を確実にターゲットしています。
Spider2-Liteでは、DivSkill-SQLはSnowflakeで+11.1ポイント、BigQueryで+8.3ポイント、最強アンサンブルベースラインで+8.3までの精度を向上し、2つのベースモデル(Opus-4.6とGPT-5.4)で一貫したゲインを得る。
Snowflake(英語版)、BigQuery(英語版)、SQLite(英語版))、BIRD-Critic(英語版) (+2.6 pts)のような異なるタスクの定式化に再訓練することなく、単一の方言転送に最適化されたスキル。
エラー診断は幻覚的なスキーマ参照と関数呼び出しを最大で3倍少なくする。
関連論文リスト
- FINER-SQL: Boosting Small Language Models for Text-to-SQL [40.19592881059662]
大規模言語モデルは、高い計算コスト、長いレイテンシ、データプライバシの懸念に悩まされる。
自然な代替手段は、効率的でプライベートなオンプレミスデプロイメントを可能にする、小さな言語モデルを使用することだ。
スケーラブルで再利用可能な強化学習フレームワークであるFINER-sqlを提案する。
論文 参考訳(メタデータ) (2026-05-05T07:51:29Z) - R$^3$-SQL: Ranking Reward and Resampling for Text-to-SQL [55.967050404665606]
R$3$-はBIRD-devで75.03の精度を達成した。
論文 参考訳(メタデータ) (2026-04-28T07:40:50Z) - CORE-T: COherent REtrieval of Tables for Text-to-SQL [91.76918495375384]
CORE-Tはスケーラブルでトレーニング不要なフレームワークで、テーブルに目的のメタデータを付加し、軽量なテーブル互換キャッシュをプリコンプリートする。
バード、スパイダー、MMQAを越えて、CORE-Tはテーブル選択F1を最大22.7ポイント改善し、最大42%のテーブルを検索する。
論文 参考訳(メタデータ) (2026-01-19T14:51:23Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - RetrySQL: text-to-SQL training with retry data for self-correcting query generation [1.6707278580444538]
テキスト・ツー・ジェネレーションモデルをトレーニングするための新しいアプローチであるRetryを紹介します。
再試行のステップは、総合的および挑戦的な実行精度の指標において最大4ポイントの改善をもたらすことを実証する。
論文 参考訳(メタデータ) (2025-07-03T11:00:49Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [8.680252929322684]
そこで我々は,sqlCriticBenchというベンチマークとともに,節単位の批判生成タスクを導入し,詳細なエラーローカライゼーションを行う。
また,自動トレーニングデータセットキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:52:39Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。