論文の概要: Do LLMs Align with My Task? Evaluating Text-to-SQL via Dataset Alignment
- arxiv url: http://arxiv.org/abs/2510.04919v1
- Date: Mon, 06 Oct 2025 15:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.941105
- Title: Do LLMs Align with My Task? Evaluating Text-to-SQL via Dataset Alignment
- Title(参考訳): LLMは私のタスクと一致しているか?データセットアライメントによるテキスト-SQLの評価
- Authors: Davood Rafiei, Morgan Lindsay Heisler, Weiwei Zhang, Mohammadreza Pourreza, Yong Zhang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、下流タスクに大規模言語モデル(LLM)を適用する効果的な方法である。
トレーニングデータの可変性は、ドメイン間で一般化するモデルの能力を妨げます。
構造アライメントは微調整成功の強い予測因子であることを示す。
- 参考スコア(独自算出の注目度): 14.735910660448724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised Fine-Tuning (SFT) is an effective method for adapting Large Language Models (LLMs) on downstream tasks. However, variability in training data can hinder a model's ability to generalize across domains. This paper studies the problem of dataset alignment for Natural Language to SQL (NL2SQL or text to SQL), examining how well SFT training data matches the structural characteristics of target queries and how this alignment impacts model performance. We hypothesize that alignment can be accurately estimated by comparing the distributions of structural SQL features across the training set, target data, and the model's predictions prior to SFT. Through comprehensive experiments on three large cross-domain NL2SQL benchmarks and multiple model families, we show that structural alignment is a strong predictor of fine-tuning success. When alignment is high, SFT yields substantial gains in accuracy and SQL generation quality; when alignment is low, improvements are marginal or absent. These findings highlight the importance of alignment-aware data selection for effective fine-tuning and generalization in NL2SQL tasks.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、下流タスクに大規模言語モデル(LLM)を適用する効果的な方法である。
しかし、トレーニングデータの可変性は、モデルがドメインをまたいで一般化する能力を妨げます。
本稿では、自然言語からSQLへのデータセットアライメント(NL2SQLまたはSQLへのテキストアライメント)の問題について検討し、SFTトレーニングデータがターゲットクエリの構造的特徴とどのように一致し、このアライメントがモデル性能に与える影響について検討する。
我々は、トレーニングセット、ターゲットデータ、SFT以前のモデルの予測を含む構造的SQL特徴の分布を比較することで、アライメントを正確に推定できると仮定する。
3つの大きなクロスドメインNL2SQLベンチマークと複数のモデルファミリーに関する包括的な実験を通して、構造的アライメントが微調整成功の強力な予測因子であることを示す。
アライメントが高い場合、SFTは精度とSQL生成品質を大幅に向上させ、アライメントが低い場合には改善が限界か欠落する。
これらの知見は、NL2SQLタスクにおける効果的な微調整と一般化のためのアライメント対応データ選択の重要性を強調している。
関連論文リスト
- The Interpretability Analysis of the Model Can Bring Improvements to the Text-to-SQL Task [3.890033714780255]
WHERE節のセマンティック解析のためのモデル解釈可能性解析と実行誘導戦略を統合する。
我々のモデルは、単一テーブルデータベースクエリタスクのエンブレマであるウィキデータセットを抜粋する。
基本的なデータベースクエリ処理の精度を高めるためにこの取り組みが、複雑なクエリ処理の研究に新たな視点を提供することを期待しています。
論文 参考訳(メタデータ) (2025-08-12T11:24:16Z) - TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:45:28Z) - CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning [0.0]
自己整合性と自己整合性を統合する新しい手法であるCSC-を提案する。
グループ相対ポリシー(GRPO)アルゴリズムを用いて、SQL生成モデルとリビジョンモデルの両方を微調整する。
BIRDのプライベートテストセットでは、我々の7Bモデルは71.72%の精度で実行され、32Bモデルは73.67%である。
論文 参考訳(メタデータ) (2025-05-19T15:52:19Z) - Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning [0.12289361708127876]
この研究は、Text-to-the-taskを、大規模言語モデル(LLM)にデータの推論と操作を教えるための経路として再構成した。
本稿では,テーブルフィールドをトラバースし,フィルタし,集約する方法をモデルに教える2段階フレームワークを提案する。
提案手法は,BIRD や CRT-QA などの推論集約型データセットに対して,理論的に有意な向上を実現している。
論文 参考訳(メタデータ) (2025-04-23T19:02:04Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。