論文の概要: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- arxiv url: http://arxiv.org/abs/2503.18596v3
- Date: Sat, 14 Jun 2025 14:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.499473
- Title: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- Title(参考訳): LinkAlign: リアルタイム大規模マルチデータベーステキストからSQLへのスケーラブルなスキーマリンク
- Authors: Yihan Wang, Peiyu Liu,
- Abstract要約: LinkAlignは、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークである。
LinkAlignは、すべてのスキーマリンクメトリクスにおいて、既存のベースラインを一貫して上回る。
これは、Spider 2.0-Liteベンチマークで33.09%の新しい最先端スコアを達成した。
- 参考スコア(独自算出の注目度): 14.677024710675838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schema linking is a critical bottleneck in applying existing Text-to-SQL models to real-world, large-scale, multi-database environments. Through error analysis, we identify two major challenges in schema linking: (1) Database Retrieval: accurately selecting the target database from a large schema pool, while effectively filtering out irrelevant ones; and (2) Schema Item Grounding: precisely identifying the relevant tables and columns within complex and often redundant schemas for SQL generation. Based on these, we introduce LinkAlign, a novel framework tailored for large-scale databases with thousands of fields. LinkAlign comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. Each stage supports both Agent and Pipeline execution modes, enabling balancing efficiency and performance via modular design. To enable more realistic evaluation, we construct AmbiDB, a synthetic dataset designed to reflect the ambiguity of real-world schema linking. Experiments on widely-used Text-to-SQL benchmarks demonstrate that LinkAlign consistently outperforms existing baselines on all schema linking metrics. Notably, it improves the overall Text-to-SQL pipeline and achieves a new state-of-the-art score of 33.09% on the Spider 2.0-Lite benchmark using only open-source LLMs, ranking first on the leaderboard at the time of submission. The codes are available at https://github.com/Satissss/LinkAlign
- Abstract(参考訳): スキーマリンクは、既存のText-to-SQLモデルを実世界、大規模、マルチデータベース環境に適用する上で、重要なボトルネックである。
データベース検索:大きなスキーマプールからターゲットデータベースを正確に選択し、無関係なデータベースを効果的にフィルタリングする。
これらに基づいて、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークであるLinkAlignを紹介します。
LinkAlignは3つの重要なステップで構成されている。
各ステージはAgentとPipelineの実行モードの両方をサポートし、モジュール設計による効率性とパフォーマンスのバランスを可能にする。
より現実的な評価を可能にするために,実世界のスキーマリンクのあいまいさを反映した合成データセットであるAmbiDBを構築した。
広く使用されているText-to-SQLベンチマークの実験は、LinkAlignがすべてのスキーマリンクメトリクスで既存のベースラインを一貫して上回っていることを示している。
特に注目に値するのは、Text-to-SQLパイプライン全体の改善と、Spider 2.0-Liteベンチマークにおける新たな最先端スコアの33.09%の達成だ。
コードはhttps://github.com/Satisss/LinkAlignで入手できる。
関連論文リスト
- Knapsack Optimization-based Schema Linking for LLM-based Text-to-SQL Generation [15.888784472807775]
我々は、Knapsack最適化に基づくリンクエージェント(KaSLA)を紹介する。
KaSLAは、冗長なスキーマ要素を最小化しながら、関連するスキーマ要素の欠如を防ぐために設計された、プラグインスキーマリンクエージェントである。
スパイダーおよびBIRDベンチマークの実験では、KaSLAがSOTAモデルの生成性能を大幅に改善できることが確認された。
論文 参考訳(メタデータ) (2025-02-18T14:53:45Z) - PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL [8.416319689644556]
冗長性を持った膨大な数のデータベーススキーマのため、タスクの変換は困難である。
マルチグラニュラリティセマンティクス(PSM-)とリンクするプログレッシブスキーマを提案する。
PSM-は列、テーブル、データベースレベルでスキーマのセマンティクスを学ぶ。
論文 参考訳(メタデータ) (2025-02-07T08:31:57Z) - Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。
本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T19:57:08Z) - V-SQL: A View-based Two-stage Text-to-SQL Framework [0.9719868595277401]
大規模言語モデル(LLM)に基づくテキスト・ツー・カップリング手法が注目されている。
メインストリームのテキスト・トゥ・カップリングフレームワークの中核となるのはスキーマ・リンクであり、データベース内のユーザ・クエリと関連するテーブルと列をアライメントする。
これまでは、LLMのデータベーススキーマ理解を高めるために、スキーマリンクに重点を置いていた。
論文 参考訳(メタデータ) (2024-12-17T02:27:50Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。
これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文 参考訳(メタデータ) (2024-08-15T04:57:55Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - DBCopilot: Natural Language Querying over Massive Databases via Schema Routing [47.009638761948466]
本稿では,DBCopilotについて述べる。DBCopilotは,大規模データベースをルーティングするためのコンパクトで柔軟なコピロットモデルを用いて,課題に対処するフレームワークである。
このフレームワークは、単一の軽量な微分可能な検索インデックスを使用して、大規模データベーススキーマのセマンティックマッピングを構築し、自然言語質問を目的のデータベースやテーブルに関連付け検索方法でナビゲートする。
論文 参考訳(メタデータ) (2023-12-06T12:37:28Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。