Fugu-MT 論文翻訳(概要): PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL

論文の概要: PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL

arxiv url: http://arxiv.org/abs/2502.05237v1
Date: Fri, 07 Feb 2025 08:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.144674
Title: PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL
Title（参考訳）: PSM-SQL: テキストからSQLへの多粒性セマンティックスによるプログレッシブスキーマ学習
Authors: Zhuopan Yang, Yuanzhen Xie, Ruichao Zhong, Yunzhi Tan, Enjie Liu, Zhenguo Yang, Mochi Gao, Bo Hu, Zang Li,
Abstract要約: 冗長性を持った膨大な数のデータベーススキーマのため、タスクの変換は困難である。マルチグラニュラリティセマンティクス(PSM-)とリンクするプログレッシブスキーマを提案する。 PSM-は列、テーブル、データベースレベルでスキーマのセマンティクスを学ぶ。
参考スコア（独自算出の注目度）: 8.416319689644556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is challenging to convert natural language (NL) questions into executable structured query language (SQL) queries for text-to-SQL tasks due to the vast number of database schemas with redundancy, which interferes with semantic learning, and the domain shift between NL and SQL. Existing works for schema linking focus on the table level and perform it once, ignoring the multi-granularity semantics and chainable cyclicity of schemas. In this paper, we propose a progressive schema linking with multi-granularity semantics (PSM-SQL) framework to reduce the redundant database schemas for text-to-SQL. Using the multi-granularity schema linking (MSL) module, PSM-SQL learns the schema semantics at the column, table, and database levels. More specifically, a triplet loss is used at the column level to learn embeddings, while fine-tuning LLMs is employed at the database level for schema reasoning. MSL employs classifier and similarity scores to model schema interactions for schema linking at the table level. In particular, PSM-SQL adopts a chain loop strategy to reduce the task difficulty of schema linking by continuously reducing the number of redundant schemas. Experiments conducted on text-to-SQL datasets show that the proposed PSM-SQL is 1-3 percentage points higher than the existing methods.
Abstract（参考訳）: 自然言語(NL)質問をテキストからSQLタスクの実行可能な構造化クエリ言語(SQL)クエリに変換するのは,意味学習に干渉する冗長性を備えた膨大な数のデータベーススキーマと,NLとSQL間のドメインシフトのため,難しい。既存のスキーマリンクの作業はテーブルレベルに集中し、それを一度実行し、スキーマのマルチグラニュラリティセマンティクスとチェーン可能な循環性を無視します。本稿では,テキストからSQLへの冗長なデータベーススキーマを減らすために,多粒性セマンティクス(PSM-SQL)フレームワークにリンクするプログレッシブスキーマを提案する。マルチグラニュラリティスキーマリンク(MSL)モジュールを使用して、PSM-SQLは列、テーブル、データベースレベルのスキーマセマンティクスを学習する。より具体的には、列レベルでは3重項損失を使用して埋め込みを学習し、微調整のLCMはスキーマ推論のためにデータベースレベルで使用される。 MSLは分類器と類似度スコアを使用して、テーブルレベルでのスキーマリンクのスキーマインタラクションをモデル化する。特に、PSM-SQLは、冗長スキーマの数を継続的に減らし、スキーマリンクのタスクの難しさを軽減するために、チェーンループ戦略を採用している。テキストからSQLまでのデータセットで行った実験では、提案したPSM-SQLが既存の手法よりも1-3ポイント高いことが示されている。

関連論文リスト

LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [14.677024710675838]
LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。 SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。 LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳（メタデータ） (2025-03-24T11:53:06Z)
Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-01-23T19:57:08Z)
V-SQL: A View-based Two-stage Text-to-SQL Framework [0.9719868595277401]
大規模言語モデル(LLM)に基づくテキスト・ツー・カップリング手法が注目されている。メインストリームのテキスト・トゥ・カップリングフレームワークの中核となるのはスキーマ・リンクであり、データベース内のユーザ・クエリと関連するテーブルと列をアライメントする。これまでは、LLMのデータベーススキーマ理解を高めるために、スキーマリンクに重点を置いていた。
論文参考訳（メタデータ） (2024-12-17T02:27:50Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文参考訳（メタデータ） (2024-08-14T17:59:04Z)
RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。 In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-07-11T08:19:58Z)
Schema-Aware Multi-Task Learning for Complex Text-to-SQL [4.913409359995421]
複雑なsqlクエリのためのスキーマ対応マルチタスク学習フレームワーク(MT)を提案する。具体的には、有効な質問スキーマリンクを識別するために、識別器モジュールを設計する。デコーダ側では、テーブルと列の接続を記述するために、6種類の関係を定義します。
論文参考訳（メタデータ） (2024-03-09T01:13:37Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
DBCopilot: Scaling Natural Language Querying to Massive Databases [47.009638761948466]
既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
論文参考訳（メタデータ） (2023-12-06T12:37:28Z)
Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。 3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文参考訳（メタデータ） (2022-08-08T03:59:33Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文参考訳（メタデータ） (2022-03-15T11:02:55Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。