Fugu-MT 論文翻訳(概要): Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation

論文の概要: Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation

arxiv url: http://arxiv.org/abs/2502.15980v1
Date: Fri, 21 Feb 2025 22:32:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.915714
Title: Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation
Title（参考訳）: Human-LLMコラボレーティブデータアノテーションによるテキストからSQLへのドメイン適応
Authors: Yuan Tian, Daniel Lee, Fei Wu, Tung Mai, Kun Qian, Siddhartha Sahai, Tianyi Zhang, Yunyao Li,
Abstract要約: テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
参考スコア（独自算出の注目度）: 26.834687657847454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-SQL models, which parse natural language (NL) questions to executable SQL queries, are increasingly adopted in real-world applications. However, deploying such models in the real world often requires adapting them to the highly specialized database schemas used in specific applications. We find that existing text-to-SQL models experience significant performance drops when applied to new schemas, primarily due to the lack of domain-specific data for fine-tuning. This data scarcity also limits the ability to effectively evaluate model performance in new domains. Continuously obtaining high-quality text-to-SQL data for evolving schemas is prohibitively expensive in real-world scenarios. To bridge this gap, we propose SQLsynth, a human-in-the-loop text-to-SQL data annotation system. SQLsynth streamlines the creation of high-quality text-to-SQL datasets through human-LLM collaboration in a structured workflow. A within-subjects user study comparing SQLsynth with manual annotation and ChatGPT shows that SQLsynth significantly accelerates text-to-SQL data annotation, reduces cognitive load, and produces datasets that are more accurate, natural, and diverse. Our code is available at https://github.com/adobe/nl_sql_analyzer.
Abstract（参考訳）: 自然言語(NL)質問を実行可能なSQLクエリに解析するテキスト・ツー・SQLモデルは、現実のアプリケーションでますます採用されている。しかし、そのようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマに適応する必要があることが多い。既存のテキスト・トゥ・SQLモデルは、新しいスキーマに適用した場合、主に微調整のためのドメイン固有のデータが欠如していることから、大幅なパフォーマンス低下を経験している。このデータ不足により、新しいドメインにおけるモデルパフォーマンスを効果的に評価する能力も制限される。スキーマの進化のための高品質なテキスト-SQLデータ連続取得は、現実のシナリオでは極めて高価である。このギャップを埋めるために、我々は、ヒューマン・イン・ザ・ループのテキスト・トゥ・SQLデータアノテーションシステムであるSQLsynthを提案する。 SQLsynthは、構造化ワークフローにおける人間-LLMコラボレーションを通じて、高品質なテキスト-SQLデータセットの作成を合理化する。 SQLsynthを手動のアノテーションと比較した内部的ユーザスタディとChatGPTは、SQLsynthがテキストからSQLへのデータアノテーションを著しく加速し、認知的負荷を低減し、より正確で自然で多様なデータセットを生成することを示している。私たちのコードはhttps://github.com/adobe/nl_sql_analyzer.comから入手可能です。

関連論文リスト

RingSQL: Generating Synthetic Data with Schema-Independent Templates for Text-to-SQL Reasoning Models [1.0062127381149395]
Ringは、スキーマに依存しないクエリテンプレートとLLMベースの自然言語質問のパラフレーズを組み合わせたハイブリッドデータ生成フレームワークである。我々は、Ringによってトレーニングされたモデルが、他の合成データでトレーニングされたモデルと比較して、6つのテキスト間ベンチマークの平均精度+2.3%に達することを発見した。
論文参考訳（メタデータ） (2026-01-09T00:46:53Z)
SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas [2.905751301655124]
テキスト・ツー・ハブ・モデルを開発する上でのボトルネックは、十分なスキーマとクエリの複雑さ、ドメインカバレッジ、タスクの多様性を備えた大規模なデータセットが不足していることだ。実世界のスキーマコレクションであるPileから拡張された135,875のリレーショナルデータベーススキーマ上に構築された,大規模半合成のテキスト・ツー・ハグデータセットであるSQaLeを紹介した。 SQaLeは実行の妥当性を維持しながら、現実的なスキーマサイズ、多様なクエリパターン、自然言語の曖昧さをキャプチャする。
論文参考訳（メタデータ） (2025-12-16T09:15:10Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
ExeSQL: Self-Taught Text-to-SQL Models with Execution-Driven Bootstrapping for SQL Dialects [24.450818792474216]
この作業では、実行駆動のエージェントブートストラップを備えたテキストからガイダンスのフレームワークであるExeを紹介した。 Exeはテキストとガイダンスの学習における方言のギャップを埋め、それぞれ15.2%、10.38%、および4.49%のGPT-4o以降の平均的な改善を実現している。
論文参考訳（メタデータ） (2025-05-22T19:13:34Z)
OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。 16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文参考訳（メタデータ） (2025-03-04T03:30:56Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文参考訳（メタデータ） (2024-08-22T20:50:48Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文参考訳（メタデータ） (2022-10-21T16:40:07Z)
S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文参考訳（メタデータ） (2022-03-14T09:49:15Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
IGSQL: Database Schema Interaction Graph Based Neural Model for Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2020-11-11T12:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。