論文の概要: SIRIUS-SQL: Anchoring Multi-Candidate Text-to-SQL in Execution Feedback
- arxiv url: http://arxiv.org/abs/2606.01246v1
- Date: Sun, 31 May 2026 13:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.471474
- Title: SIRIUS-SQL: Anchoring Multi-Candidate Text-to-SQL in Execution Feedback
- Title(参考訳): SIRIUS-SQL: 実行フィードバックにおけるマルチCandidateテキストからSQLへの変換
- Authors: Leo Luo, Haining Xie, Siqi Shen, Zhipeng Ma, Rui Ling, Hang Xu, Hefeng Jiang, Dingwei Chen, Yang Li, Peng Chen, Jie Jiang,
- Abstract要約: テキスト・ツー・オンの複雑なスキーマは単一のパスでは信頼性が低いため、最近のシステムは複数のsql候補を生成し、エラーをフィルタする。
投票だけでは十分ではない。多候補のレシピには3つの弱点があるからだ。
3つの弱点に対処するSIRIUS-32Bを提案する。
- 参考スコア(独自算出の注目度): 26.80964126227997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL on complex schemas is unreliable on a single pass, so recent systems generate multiple SQL candidates and let voting filter out errors. Yet voting alone is not enough, because the multi-candidate recipe has three coupled weaknesses: 1) sampling more from a single generator produces increasingly redundant candidates, 2) existing pipelines apply one generic correction to every non-clean execution result, while runtime errors, timeouts, and empty results each indicate a different distance from correctness, and 3) existing selectors rely on a single angle such as result-majority voting or pairwise SQL comparison, missing what other angles would have caught. We present SIRIUS-SQL, which addresses all three weaknesses. A difficulty-smoothing RL recipe trains SIRIUS-32B to generate diverse executable SQL candidates, paired with a generalist LLM that fills in gaps left by the specialist. An execution-grounded lifecycle classifies each outcome and applies targeted repair before candidates re-enter the pool. A confidence-gated hybrid selector combines execution-result agreement with pairwise SQL-form judgment, escalating only near-tied cases to a deterministic structural check. SIRIUS-SQL reaches 75.88% on BIRD dev and 91.20% on SPIDER test. Two of three generalist pairings surpass Agentar-Scale-SQL, the strongest published multi-candidate system on BIRD dev.
- Abstract(参考訳): 複雑なスキーマ上のテキストからSQLは、単一のパスでは信頼性が低いため、最近のシステムは複数のSQL候補を生成し、エラーをフィルタする。
しかし、投票だけでは十分ではない。
1) 単一発生器からのより多くのサンプリングは、ますます冗長な候補を生成する。
2) 既存のパイプラインは、すべての非クリーンな実行結果に1つの一般的な修正を適用している一方、ランタイムエラー、タイムアウト、空の結果はそれぞれ、正確性から異なる距離を示している。
3) 既存のセレクタは結果マジョリティ投票やペアワイズSQL比較のような単一のアングルに依存しており、他のアングルがキャッチしたものを欠いている。
SIRIUS-SQLは3つの弱点に対処する。
難易度の高いRLレシピはSIRIUS-32Bを訓練し、様々な実行可能なSQL候補を生成する。
実行段階のライフサイクルは、各結果を分類し、候補が再びプールに入る前に対象の修復を適用する。
信頼に満ちたハイブリッドセレクタは、実行要求契約とペアワイズSQL形式の判断を結合し、最寄りのケースのみを決定論的構造チェックにエスカレートする。
SIRIUS-SQLはBIRD開発で75.88%、SPIDERテストで91.20%に達する。
3つのジェネラリストペアのうち2つは、BIRD開発に関する最も強力なマルチ候補システムであるAgendar-Scale-SQLを上回っている。
関連論文リスト
- EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL [53.116276478707626]
EviLinkは、マルチハイプセシススキーマと不確実性誘導されたエビデンス獲得を組み合わせている。
Spider2-Snowでは、EviLinkは90.15%のフィールドレベルの厳格なリコールレートを獲得し、平均トークン123.30Kを使用し、固定ジェネレータによる下流SQL生成を改善している。
論文 参考訳(メタデータ) (2026-05-28T09:32:38Z) - Residual Skill Optimization for Text-to-SQL Ensembles [37.13373780149542]
そこで本研究では,モデル微調整を伴わずに,補完的なエージェントテキスト対アンサンブルを構築する残留スキル最適化フレームワークであるDivSkillを提案する。
それぞれの新しいスキルは、現在のスキルアンサンブルが失敗する例に基づいて最適化されており、Pass@Kへの限界的な貢献を確実にターゲットとしている。
Spider2-Liteでは、DivSkillはSnowflakeで+11.1ポイント、BigQueryで+8.3までの精度を最強アンサンブルベースラインで向上させる。
Skillsは、方言(Snowflake、BigQuery、pts)とBIRD-Critic (+2.6)のような異なるタスクの定式化に再訓練することなく、単一の方言の移動を最適化した。
論文 参考訳(メタデータ) (2026-05-20T22:36:11Z) - R$^3$-SQL: Ranking Reward and Resampling for Text-to-SQL [55.967050404665606]
R$3$-はBIRD-devで75.03の精度を達成した。
論文 参考訳(メタデータ) (2026-04-28T07:40:50Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - JudgeSQL: Reasoning over SQL Candidates with Weighted Consensus Tournament [26.476304887882133]
審査員は、構造化された推論と重み付けされたコンセンサストーナメント機構を通じて候補者の選択を再定義する原則的な枠組みである。
審査員は優れた判断能力と優れたクロススケール一般化とジェネレータ能力を示す。
論文 参考訳(メタデータ) (2025-10-17T11:46:38Z) - XiYan-SQL: A Novel Multi-Generator Framework For Text-to-SQL [48.45491386478092]
本稿では,複数の候補を効果的に生成・活用する革新的なフレームワークであるXiYan-を提案する。
XiYan-はBIRDベンチマークで75.63%の新しいSOTA性能を達成した。
また、スパイダーテストセットのSOTA性能も89.65%の精度で達成した。
論文 参考訳(メタデータ) (2025-07-07T06:50:46Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration [26.193588535592767]
本稿では,SQLの誤検出と修復を目的とした,新しい一貫性向上型マルチエージェント協調フレームワークを提案する。
提案するフレームワークを5つのテキスト・テキスト・ベンチマークで評価する。
本手法はベースラインモデルの性能を継続的に向上させる。
私たちのフレームワークは、他の高度なメソッドよりもトークン効率が高いので、より競争力があります。
論文 参考訳(メタデータ) (2024-06-19T09:57:19Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。