論文の概要: XiYan-SQL: A Novel Multi-Generator Framework For Text-to-SQL
- arxiv url: http://arxiv.org/abs/2507.04701v1
- Date: Mon, 07 Jul 2025 06:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.299266
- Title: XiYan-SQL: A Novel Multi-Generator Framework For Text-to-SQL
- Title(参考訳): XiYan-SQL: テキストからSQLへの新たなマルチジェネレータフレームワーク
- Authors: Yifu Liu, Yin Zhu, Yingqi Gao, Zhiling Luo, Xiaoxia Li, Xiaorong Shi, Yuntao Hong, Jinyang Gao, Yu Li, Bolin Ding, Jingren Zhou,
- Abstract要約: 本稿では,複数の候補を効果的に生成・活用する革新的なフレームワークであるXiYan-を提案する。
XiYan-はBIRDベンチマークで75.63%の新しいSOTA性能を達成した。
また、スパイダーテストセットのSOTA性能も89.65%の精度で達成した。
- 参考スコア(独自算出の注目度): 48.45491386478092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To leverage the advantages of LLM in addressing challenges in the Text-to-SQL task, we present XiYan-SQL, an innovative framework effectively generating and utilizing multiple SQL candidates. It consists of three components: 1) a Schema Filter module filtering and obtaining multiple relevant schemas; 2) a multi-generator ensemble approach generating multiple highquality and diverse SQL queries; 3) a selection model with a candidate reorganization strategy implemented to obtain the optimal SQL query. Specifically, for the multi-generator ensemble, we employ a multi-task fine-tuning strategy to enhance the capabilities of SQL generation models for the intrinsic alignment between SQL and text, and construct multiple generation models with distinct generation styles by fine-tuning across different SQL formats. The experimental results and comprehensive analysis demonstrate the effectiveness and robustness of our framework. Overall, XiYan-SQL achieves a new SOTA performance of 75.63% on the notable BIRD benchmark, surpassing all previous methods. It also attains SOTA performance on the Spider test set with an accuracy of 89.65%.
- Abstract(参考訳): テキスト・トゥ・SQLタスクの課題に対処する上で,LLMの利点を活用するために,複数のSQL候補を効果的に生成・活用する革新的なフレームワークであるXiYan-SQLを提案する。
3つの構成要素から構成される。
1) Schemaフィルタモジュールのフィルタリングと複数の関連するスキーマの取得。
2)複数の高品質で多様なSQLクエリを生成するマルチジェネレータアンサンブルアプローチ。
3) 最適なSQLクエリを得るために,候補の再編成戦略を備えた選択モデルを構築した。
具体的には、マルチジェネレータアンサンブルに対して、SQLとテキストの本質的なアライメントのためのSQL生成モデルの能力を高めるために、マルチタスクの微調整戦略を採用し、異なるSQLフォーマットを微調整することで、異なる生成スタイルの複数の生成モデルを構築する。
実験結果と包括的分析により,本フレームワークの有効性とロバスト性を示した。
全体として、XiYan-SQLは、BIRDベンチマークで75.63%の新しいSOTAパフォーマンスを達成し、以前のすべてのメソッドを上回った。
また、スパイダーテストセットのSOTA性能も89.65%の精度で達成した。
関連論文リスト
- OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。
これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。
実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文 参考訳(メタデータ) (2025-02-19T07:51:50Z) - A Preview of XiYan-SQL: A Multi-Generator Ensemble Framework for Text-to-SQL [20.010431872384714]
XiYanは、マルチコンテキストアンサンブル戦略を用いて、候補生成を改善する革新的なフレームワークである。
本稿では,データベース構造を理解するための半構造化表現手法であるM-スキーマを紹介する。
全体として、提案したXiYan-the-artフレームワークは、Birdデータセットベンチマークで75.63%の最先端実行精度を実現する。
論文 参考訳(メタデータ) (2024-11-13T13:30:21Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL [9.47170756607886]
CHASE-は、マルチエージェントモデリングにおけるテスト時間計算を用いて、候補生成と選択を改善する革新的な戦略を利用する新しいフレームワークである。
最適な候補を特定するために、選別エージェントを用いて、微調整された二項候補選択LLMとのペア比較により候補をランク付けする。
提案したCHASE-は、BIRD Text-to- datasetベンチマークのテストセットと開発セットにおいて、73.0%と73.01%の最先端実行精度を実現している。
論文 参考訳(メタデータ) (2024-10-02T18:41:35Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。