論文の概要: GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models
- arxiv url: http://arxiv.org/abs/2509.01308v1
- Date: Mon, 01 Sep 2025 09:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.626609
- Title: GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models
- Title(参考訳): GradeSQL: 大規模言語モデルからSQLクエリをランク付けするためのアウトカムリワードモデル
- Authors: Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia,
- Abstract要約: Outcome Reward Models(ORM)は、意味的正確性に基づいて生成された出力にユーティリティスコアを割り当てます。
我々はORMをBest-of-N(BoN)とMajority Voting(Maj)の効果的なアプローチとして評価する。
我々は、Text-to-SpiderタスクのためのORMをトレーニングするためのフレームワークを紹介します。
- 参考スコア(独自算出の注目度): 16.184651199160882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL, the task of translating natural language questions into SQL queries, has significantly advanced with the introduction of Large Language Models (LLMs), broadening database accessibility for a wide range of users. Despite substantial progress in generating valid SQL, current LLMs still struggle with complex queries that require precise alignment between user intent and the database schema. To mitigate this, test-time strategies such as Best-of-N (BoN) and Majority Voting (Maj) are often employed, based on the assumption that LLMs can generate correct answers but may require multiple attempts. However, these methods rely on surface-level heuristics, selecting either the syntactically correct query through execution-based BoN (ex-BoN) or the most frequently generated query with Maj. Recently, Outcome Reward Models (ORMs), which assign utility scores to generated outputs based on semantic correctness, have emerged as a promising approach for better aligning model predictions with user intent. Nevertheless, their application to Text-to-SQL remains largely underexplored. In this work, we evaluate ORMs as an effective heuristic for BoN, compare them with ex-BoN and Maj, and introduce a framework for training ORMs for the Text-to-SQL task. We evaluate our ORMs on the BIRD and SPIDER benchmarks, finetuning various open-source LLMs, including the Qwen2, Granite3, and Llama3 model families. Our results show that ORMs outperform ex-BoN and Maj, achieving execution accuracy gains of +4.33% (BIRD) and +2.10% (Spider) over ex-BoN, and +2.91% (BIRD) and +0.93% (Spider) over Maj. We further demonstrate that finetuning models already aligned with SQL generation, such as OmniSQL, yields superior ORM performance. Additionally, we observe that ORMs achieve competitive results on simple queries and benefit more from an increased number of candidates compared to ex-BoN and Maj.
- Abstract(参考訳): 自然言語の質問をSQLクエリに翻訳するタスクであるText-to-SQLは、LLM(Large Language Models)の導入によって大幅に進歩し、広範囲のユーザに対するデータベースアクセシビリティが向上した。
有効なSQLの生成が大幅に進歩しているにも関わらず、現在のLLMは、ユーザ意図とデータベーススキーマの正確なアライメントを必要とする複雑なクエリに苦慮している。
これを軽減するために、LLMが正しい答えを生成できるが複数の試行を必要とするという仮定に基づいて、Best-of-N (BoN) やMajority Voting (Maj) のようなテストタイム戦略がよく用いられる。
しかし、これらの手法は表面的なヒューリスティックスに依存しており、実行ベースのBoN(ex-BoN)を介して構文的に正しいクエリを選択するか、Magとの最も頻繁に生成されるクエリを選択する。最近、意味的正確性に基づいて生成された出力にユーティリティスコアを割り当てる Outcome Reward Models (ORM) が、モデル予測とユーザ意図との整合性を改善するための有望なアプローチとして登場した。
それでも、Text-to-SQLへの彼らの適用は、ほとんど調査されていない。
本研究では、BONの効果的なヒューリスティックとしてORMを評価し、それらを元BoNやMagと比較し、Text-to-SQLタスクのためにORMをトレーニングするためのフレームワークを導入する。
BIRDおよびSPIDERベンチマークでORMを評価し、Qwen2、Granite3、Llama3モデルファミリなど、さまざまなオープンソースLLMを微調整する。
我々の結果は、ORMが元BoNとMagより優れていることを示し、その実行精度は、元BoNよりも+4.33%(BIRD)、+2.10%(Spider)、Magより+2.91%(BIRD)、+0.93%(Spider)となっている。
さらに,従来のBoNやMagと比較して,ORMが単純なクエリに対して競合的な結果を得ると同時に,候補数の増加によるメリットも期待できる。
関連論文リスト
- Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models [22.960560371494832]
小型言語モデル(SLM)はNL2タスクと競合し、パフォーマンスが悪く、既存のフレームワークと互換性がない。
SLMに適した新しい軽量フレームワークであるFeather- Paradigmを紹介します。
提案されたパラダイムは、SLMの精度の上限を54.76%に引き上げ、その有効性を強調している。
論文 参考訳(メタデータ) (2025-03-22T16:22:53Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。