論文の概要: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- arxiv url: http://arxiv.org/abs/2503.18596v4
- Date: Mon, 08 Sep 2025 07:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.982862
- Title: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
- Title(参考訳): LinkAlign: リアルタイム大規模マルチデータベーステキストからSQLへのスケーラブルなスキーマリンク
- Authors: Yihan Wang, Peiyu Liu, Xin Yang,
- Abstract要約: LinkAlignは、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークである。
LinkAlignは、すべてのスキーマリンクメトリクスにおいて、既存のベースラインを一貫して上回る。
これは、Spider 2.0-Liteベンチマークで33.09%の新しい最先端スコアを達成した。
- 参考スコア(独自算出の注目度): 24.740161980003652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schema linking is a critical bottleneck in applying existing Text-to-SQL models to real-world, large-scale, multi-database environments. Through error analysis, we identify two major challenges in schema linking: (1) Database Retrieval: accurately selecting the target database from a large schema pool, while effectively filtering out irrelevant ones; and (2) Schema Item Grounding: precisely identifying the relevant tables and columns within complex and often redundant schemas for SQL generation. Based on these, we introduce LinkAlign, a novel framework tailored for large-scale databases with thousands of fields. LinkAlign comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. Each stage supports both Agent and Pipeline execution modes, enabling balancing efficiency and performance via modular design. To enable more realistic evaluation, we construct AmbiDB, a synthetic dataset designed to reflect the ambiguity of real-world schema linking. Experiments on widely-used Text-to-SQL benchmarks demonstrate that LinkAlign consistently outperforms existing baselines on all schema linking metrics. Notably, it improves the overall Text-to-SQL pipeline and achieves a new state-of-the-art score of 33.09% on the Spider 2.0-Lite benchmark using only open-source LLMs, ranking first on the leaderboard at the time of submission. The codes are available at https://github.com/Satissss/LinkAlign
- Abstract(参考訳): スキーマリンクは、既存のText-to-SQLモデルを実世界、大規模、マルチデータベース環境に適用する上で、重要なボトルネックである。
データベース検索:大きなスキーマプールからターゲットデータベースを正確に選択し、無関係なデータベースを効果的にフィルタリングする。
これらに基づいて、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークであるLinkAlignを紹介します。
LinkAlignは3つの重要なステップで構成されている。
各ステージはAgentとPipelineの実行モードの両方をサポートし、モジュール設計による効率性とパフォーマンスのバランスを可能にする。
より現実的な評価を可能にするために,実世界のスキーマリンクのあいまいさを反映した合成データセットであるAmbiDBを構築した。
広く使用されているText-to-SQLベンチマークの実験は、LinkAlignがすべてのスキーマリンクメトリクスで既存のベースラインを一貫して上回っていることを示している。
特に注目に値するのは、Text-to-SQLパイプライン全体の改善と、Spider 2.0-Liteベンチマークにおける新たな最先端スコアの33.09%の達成だ。
コードはhttps://github.com/Satisss/LinkAlignで入手できる。
関連論文リスト
- Scaling Text2SQL via LLM-efficient Schema Filtering with Functional Dependency Graph Rerankers [38.94000136647706]
現代のText2システムのほとんどは、ユーザの質問と並んでスキーマ全体の大きな言語モデル(LLM)を起動する。
Toolnameは、クエリを意識した列のランク付けによってText2プロンプトをコンパクト化するオープンソースのフレームワークである。
実験の結果、ツールネームはCodeS、エンコーダExP、Qwenリランカ、埋め込みレトリバーよりも完全に近いリコールと高精度を実現していることがわかった。
論文 参考訳(メタデータ) (2025-12-18T01:59:06Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale [68.29002818359844]
既存の方法は違法なコストを発生させ、リコールとノイズのトレードオフに苦労し、大規模データベースに不利なスケーリングを行う。
我々は、反復的エージェント駆動プロセスとしてスキーマリンクを再構成する、自律的なエージェントフレームワークであるtextbfAutoLinkを提案する。
実験ではAutoLinkの優れたパフォーマンスを示し、最先端の厳密なスキーマリンクのリコール、すなわち textbf68.7% EX on Bird-Dev (CHESSより優れている)、 textbf34.9% EX on Spider-2.0-Lite (第2位)を実現している。
論文 参考訳(メタデータ) (2025-11-21T12:12:17Z) - Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL [14.44163500388232]
本稿では,スキーマリンクを独立した問題として扱う,コンテキスト対応の双方向スキーマ検索フレームワークを提案する。
提案手法は,テーブル優先検索と列選択,列優先検索とテーブル選択の2つの相補的戦略を組み合わせる。
提案手法は,完全なスキーマ設定と完全なスキーマ設定のギャップを50%縮小する。
論文 参考訳(メタデータ) (2025-10-16T04:46:22Z) - CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description [15.080310729603466]
CRED-は大規模データベース向けに設計されたフレームワークで、クラスタ検索と実行記述を統合している。
自然言語質問(NLQ)と対応するsqlクエリのギャップを埋める。
CRED-は最新のgit-the-art(SOTA)パフォーマンスを実現し、その有効性とスケーラビリティを検証する。
論文 参考訳(メタデータ) (2025-08-18T09:43:07Z) - SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases [1.6544167074080365]
本稿では、まず、外部キー関係に基づくスキーマグラフを構築する、ゼロショットでトレーニング不要なスキーマリンク手法を提案する。
我々は、結合すべきテーブルや列の最適なシーケンスを特定するために、古典的なパスフィニングアルゴリズムと後処理を適用する。
提案手法はBIRDベンチマークの最先端結果を実現し,従来の特殊化,微調整,複雑な多段階LCMに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T20:42:36Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - Knapsack Optimization-based Schema Linking for LLM-based Text-to-SQL Generation [15.888784472807775]
我々は、Knapsack最適化に基づくリンクエージェント(KaSLA)を紹介する。
KaSLAは、冗長なスキーマ要素を最小化しながら、関連するスキーマ要素の欠如を防ぐために設計された、プラグインスキーマリンクエージェントである。
スパイダーおよびBIRDベンチマークの実験では、KaSLAがSOTAモデルの生成性能を大幅に改善できることが確認された。
論文 参考訳(メタデータ) (2025-02-18T14:53:45Z) - PSM-SQL: Progressive Schema Learning with Multi-granularity Semantics for Text-to-SQL [8.416319689644556]
冗長性を持った膨大な数のデータベーススキーマのため、タスクの変換は困難である。
マルチグラニュラリティセマンティクス(PSM-)とリンクするプログレッシブスキーマを提案する。
PSM-は列、テーブル、データベースレベルでスキーマのセマンティクスを学ぶ。
論文 参考訳(メタデータ) (2025-02-07T08:31:57Z) - Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。
本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T19:57:08Z) - V-SQL: A View-based Two-stage Text-to-SQL Framework [0.9719868595277401]
大規模言語モデル(LLM)に基づくテキスト・ツー・カップリング手法が注目されている。
メインストリームのテキスト・トゥ・カップリングフレームワークの中核となるのはスキーマ・リンクであり、データベース内のユーザ・クエリと関連するテーブルと列をアライメントする。
これまでは、LLMのデータベーススキーマ理解を高めるために、スキーマリンクに重点を置いていた。
論文 参考訳(メタデータ) (2024-12-17T02:27:50Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL [15.824894030016187]
近年,テキスト・トゥ・コンテクスト・タスクにおいて,インコンテキスト・ラーニングに基づく手法が顕著な成功を収めている。
これらのモデルのパフォーマンスと、複雑なデータベーススキーマを持つデータセット上でのヒューマンパフォーマンスとの間には、依然として大きなギャップがあります。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
論文 参考訳(メタデータ) (2024-08-15T04:57:55Z) - The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。
より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。
文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文 参考訳(メタデータ) (2024-08-14T17:59:04Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - DBCopilot: Natural Language Querying over Massive Databases via Schema Routing [47.009638761948466]
本稿では,DBCopilotについて述べる。DBCopilotは,大規模データベースをルーティングするためのコンパクトで柔軟なコピロットモデルを用いて,課題に対処するフレームワークである。
このフレームワークは、単一の軽量な微分可能な検索インデックスを使用して、大規模データベーススキーマのセマンティックマッピングを構築し、自然言語質問を目的のデータベースやテーブルに関連付け検索方法でナビゲートする。
論文 参考訳(メタデータ) (2023-12-06T12:37:28Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。