Fugu-MT 論文翻訳(概要): Synthetic SQL Column Descriptions and Their Impact on Text-to-SQL Performance

論文の概要: Synthetic SQL Column Descriptions and Their Impact on Text-to-SQL Performance

arxiv url: http://arxiv.org/abs/2408.04691v4
Date: Tue, 5 Nov 2024 10:32:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 12:11:36.709471
Title: Synthetic SQL Column Descriptions and Their Impact on Text-to-SQL Performance
Title（参考訳）: 合成SQLカラム記述とテキスト間SQLパフォーマンスへの影響
Authors: Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz,
Abstract要約: 本稿では,データベース列の詳細な自然言語記述を自動的に生成する大規模言語モデル(LLM)について検討する。 BIRD-Benchベンチマークに基づいて列記述のデータセットを作成し、その列記述を手作業で修正し、列の難易度を分類する。このような列記述を組み込むことで、特に大規模モデルではテキストと混合モデルの性能が向上する。
参考スコア（独自算出の注目度）: 2.5840833611282052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Relational databases often suffer from uninformative descriptors of table contents, such as ambiguous columns and hard-to-interpret values, impacting both human users and text-to-SQL models. In this paper, we explore the use of large language models (LLMs) to automatically generate detailed natural language descriptions for SQL database columns, aiming to improve text-to-SQL performance and automate metadata creation. We create a dataset of gold column descriptions based on the BIRD-Bench benchmark, manually refining its column descriptions and creating a taxonomy for categorizing column difficulty. We then evaluate several different LLMs in generating column descriptions across the columns and different difficulties in the dataset, finding that models unsurprisingly struggle with columns that exhibit inherent ambiguity, highlighting the need for manual expert input. We also find that incorporating such generated column descriptions consistently enhances text-to-SQL model performance, particularly for larger models like GPT-4o, Qwen2 72B and Mixtral 22Bx8. Notably, Qwen2-generated descriptions, containing by annotators deemed superfluous information, outperform manually curated gold descriptions, suggesting that models benefit from more detailed metadata than humans expect. Future work will investigate the specific features of these high-performing descriptions and explore other types of metadata, such as numerical reasoning and synonyms, to further improve text-to-SQL systems. The dataset, annotations and code will all be made available.
Abstract（参考訳）: リレーショナルデータベースは、曖昧な列や難解な解釈値などのテーブル内容の非形式的な記述に悩まされ、人間のユーザとテキスト-SQLモデルの両方に影響を与えます。本稿では,大規模言語モデル(LLM)を用いてSQLデータベース列の詳細な自然言語記述を自動的に生成し,テキストとSQLのパフォーマンス向上とメタデータの自動生成を目指す。 BIRD-Benchベンチマークに基づくゴールドカラム記述のデータセットを作成し、手動でカラム記述を精製し、カラムの難易度を分類する分類法を作成する。次に、列をまたいだ列記述の生成とデータセットの難しさについて、いくつかの異なるLCMを評価し、当然ながら、モデルが固有の曖昧さを示す列と苦労し、手動のエキスパート入力の必要性を強調します。また,GPT-4o,Qwen2 72B,Mixtral 22Bx8などの大規模モデルでは,このような列記述を組み込むことでテキスト間SQLモデルの性能が一貫して向上することがわかった。特に、Qwen2の生成した記述は、アノテーターによって過剰な情報と見なされ、手作業による金の記述よりも優れており、モデルが人間の予想より詳細なメタデータの恩恵を受けていることを示唆している。今後の研究は、これらのハイパフォーマンスな記述の特徴を調査し、数値的推論や同義語など他のタイプのメタデータを探索して、テキストからSQLシステムをさらに改善する予定である。データセット、アノテーション、コードは、すべて利用可能になる。

関連論文リスト

Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文参考訳（メタデータ） (2025-02-21T22:32:35Z)
Rationalization Models for Text-to-SQL [13.792561265515003]
本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文参考訳（メタデータ） (2025-02-10T18:38:57Z)
Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文参考訳（メタデータ） (2024-09-24T09:24:03Z)
SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文参考訳（メタデータ） (2024-08-22T20:50:48Z)
SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文参考訳（メタデータ） (2023-10-27T00:13:59Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文参考訳（メタデータ） (2023-04-26T06:02:01Z)
UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文参考訳（メタデータ） (2022-03-15T11:02:55Z)
S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文参考訳（メタデータ） (2022-03-14T09:49:15Z)
IGSQL: Database Schema Interaction Graph Based Neural Model for Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2020-11-11T12:56:21Z)
Structure-Grounded Pretraining for Text-to-SQL [75.19554243393814]
本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
論文参考訳（メタデータ） (2020-10-24T04:35:35Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。