論文の概要: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- arxiv url: http://arxiv.org/abs/2503.18596v1
- Date: Mon, 24 Mar 2025 11:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:15.574537
- Title: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- Title(参考訳): LinkAlign: リアルタイム大規模マルチデータベーステキストからSQLへのスケーラブルなスキーマリンク
- Authors: Yihan Wang, Peiyu Liu, Xin Yang,
- Abstract要約: LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。
SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。
LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
- 参考スコア(独自算出の注目度): 17.143278779306506
- License:
- Abstract: Schema linking is a critical bottleneck in achieving human-level performance in Text-to-SQL tasks, particularly in real-world large-scale multi-database scenarios. Addressing schema linking faces two major challenges: (1) Database Retrieval: selecting the correct database from a large schema pool in multi-database settings, while filtering out irrelevant ones. (2) Schema Item Grounding: accurately identifying the relevant tables and columns from within a large and redundant schema for SQL generation. To address this, we introduce LinkAlign, a novel framework that can effectively adapt existing baselines to real-world environments by systematically addressing schema linking. Our framework comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. We evaluate our method performance of schema linking on the SPIDER and BIRD benchmarks, and the ability to adapt existing Text-to-SQL models to real-world environments on the SPIDER 2.0-lite benchmark. Experiments show that LinkAlign outperforms existing baselines in multi-database settings, demonstrating its effectiveness and robustness. On the other hand, our method ranks highest among models excluding those using long chain-of-thought reasoning LLMs. This work bridges the gap between current research and real-world scenarios, providing a practical solution for robust and scalable schema linking. The codes are available at https://github.com/Satissss/LinkAlign.
- Abstract(参考訳): スキーマリンクは、テキストからSQLタスク、特に現実世界の大規模マルチデータベースシナリオにおいて、人間レベルのパフォーマンスを達成する上で重要なボトルネックである。
データベース検索: 複数のデータベース設定で大きなスキーマプールから正しいデータベースを選択し、無関係なデータベースをフィルタリングする。
2) Schema Item Grounding: SQL生成のための大規模で冗長なスキーマの中から、関連するテーブルと列を正確に識別する。
そこで我々は,既存のベースラインを現実の環境に効果的に適応させる新しいフレームワークであるLinkAlignを紹介した。
本フレームワークは3つの重要なステップから構成される: マルチラウンドセマンティック強化検索とチャレンジ1の無関係情報分離とチャレンジ2のスキーマ抽出強化である。
SPIDER と BIRD ベンチマーク上でのスキーマリンクの性能評価と,SPIDER 2.0-lite ベンチマークで既存の Text-to-SQL モデルを実環境に適応する能力の評価を行った。
実験の結果、LinkAlignは既存のベースラインをマルチデータベース設定で上回り、その有効性と堅牢性を示している。
一方,提案手法はLLMの長鎖推論を用いたモデルを除くモデルの中で最多である。
この作業は、現在の研究と実世界のシナリオのギャップを埋め、堅牢でスケーラブルなスキーマリンクのための実用的なソリューションを提供する。
コードはhttps://github.com/Satisss/LinkAlign.comで入手できる。
関連論文リスト
- Knapsack Optimization-based Schema Linking for LLM-based Text-to-SQL Generation [15.888784472807775]
我々は、Knapsack最適化に基づくリンクエージェント(KaSLA)を紹介する。
KaSLAは、冗長なスキーマ要素を最小化しながら、関連するスキーマ要素の欠如を防ぐために設計された、プラグインスキーマリンクエージェントである。
スパイダーおよびBIRDベンチマークの実験では、KaSLAがSOTAモデルの生成性能を大幅に改善できることが確認された。
論文 参考訳(メタデータ) (2025-02-18T14:53:45Z) - PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL [8.416319689644556]
冗長性を持った膨大な数のデータベーススキーマのため、タスクの変換は困難である。
マルチグラニュラリティセマンティクス(PSM-)とリンクするプログレッシブスキーマを提案する。
PSM-は列、テーブル、データベースレベルでスキーマのセマンティクスを学ぶ。
論文 参考訳(メタデータ) (2025-02-07T08:31:57Z) - Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。
本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T19:57:08Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。
これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文 参考訳(メタデータ) (2024-08-15T04:57:55Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。