論文の概要: Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2510.14296v1
- Date: Thu, 16 Oct 2025 04:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.722799
- Title: Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL
- Title(参考訳): スキーマリンクの再考: テキストからSQLへのコンテキスト対応双方向検索アプローチ
- Authors: Md Mahadi Hasan Nahid, Davood Rafiei, Weiwei Zhang, Yong Zhang,
- Abstract要約: 本稿では,スキーマリンクを独立した問題として扱う,コンテキスト対応の双方向スキーマ検索フレームワークを提案する。
提案手法は,テーブル優先検索と列選択,列優先検索とテーブル選択の2つの相補的戦略を組み合わせる。
提案手法は,完全なスキーマ設定と完全なスキーマ設定のギャップを50%縮小する。
- 参考スコア(独自算出の注目度): 14.44163500388232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schema linking -- the process of aligning natural language questions with database schema elements -- is a critical yet underexplored component of Text-to-SQL systems. While recent methods have focused primarily on improving SQL generation, they often neglect the retrieval of relevant schema elements, which can lead to hallucinations and execution failures. In this work, we propose a context-aware bidirectional schema retrieval framework that treats schema linking as a standalone problem. Our approach combines two complementary strategies: table-first retrieval followed by column selection, and column-first retrieval followed by table selection. It is further augmented with techniques such as question decomposition, keyword extraction, and keyphrase extraction. Through comprehensive evaluations on challenging benchmarks such as BIRD and Spider, we demonstrate that our method significantly improves schema recall while reducing false positives. Moreover, SQL generation using our retrieved schema consistently outperforms full-schema baselines and closely approaches oracle performance, all without requiring query refinement. Notably, our method narrows the performance gap between full and perfect schema settings by 50\%. Our findings highlight schema linking as a powerful lever for enhancing Text-to-SQL accuracy and efficiency.
- Abstract(参考訳): 自然言語の質問をデータベースのスキーマ要素と整合させるプロセスであるスキーマリンクは、Text-to-SQLシステムの重要かつ未調査のコンポーネントである。
最近の手法は、主にSQL生成の改善に重点を置いているが、関連するスキーマ要素の検索を無視することが多く、幻覚や実行失敗につながる可能性がある。
本研究では,スキーマリンクを独立した問題として扱う,コンテキスト対応の双方向スキーマ検索フレームワークを提案する。
提案手法は,テーブル優先検索と列選択,列優先検索とテーブル選択の2つの相補的戦略を組み合わせる。
質問分解、キーワード抽出、キーフレーズ抽出といったテクニックでさらに強化されている。
BIRDやSpiderなどの課題ベンチマークの総合評価を通じて,提案手法は偽陽性を低減しつつ,スキーマリコールを大幅に改善することを示した。
さらに、検索したスキーマを使用したSQL生成は、クエリの洗練を必要とせず、フルスキーマベースラインを一貫して上回り、オラクルのパフォーマンスに近づいた。
特に,本手法では,完全なスキーマ設定と完全スキーマ設定とのパフォーマンスギャップを50%縮小する。
この結果から,スキーマリンクは,テキスト対SQLの精度と効率を向上させるための強力なレバーとして注目されている。
関連論文リスト
- SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases [1.6544167074080365]
本稿では、まず、外部キー関係に基づくスキーマグラフを構築する、ゼロショットでトレーニング不要なスキーマリンク手法を提案する。
我々は、結合すべきテーブルや列の最適なシーケンスを特定するために、古典的なパスフィニングアルゴリズムと後処理を適用する。
提案手法はBIRDベンチマークの最先端結果を実現し,従来の特殊化,微調整,複雑な多段階LCMに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T20:42:36Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - Knapsack Optimization-based Schema Linking for LLM-based Text-to-SQL Generation [19.036911929688827]
Knapsack最適化ベースのリンクアプローチ(KaSLA)は、関連するスキーマ要素の欠如を防ぐために設計されている。
KaSLA-1.6B Deepseek-v3 や State-of-the-art (SOTA) スキーマリンク手法など、大規模なスキーマリンクよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-02-18T14:53:45Z) - V-SQL: A View-based Two-stage Text-to-SQL Framework [0.9719868595277401]
大規模言語モデル(LLM)に基づくテキスト・ツー・カップリング手法が注目されている。
メインストリームのテキスト・トゥ・カップリングフレームワークの中核となるのはスキーマ・リンクであり、データベース内のユーザ・クエリと関連するテーブルと列をアライメントする。
これまでは、LLMのデータベーススキーマ理解を高めるために、スキーマリンクに重点を置いていた。
論文 参考訳(メタデータ) (2024-12-17T02:27:50Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - MURRE: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL [51.48239006107272]
MURRE (Multi-hop table search with removal) は、未検索のテーブルへ誘導するために、質問から以前検索した情報を削除する。
2つのオープンドメインのテキスト・ツー・レトリバーデータセットの実験は、以前の最先端結果よりも平均5.7%改善したことを示している。
論文 参考訳(メタデータ) (2024-02-16T13:14:35Z) - CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL [47.14954737590405]
既存のテキストからテキストへのジェネレータでは、スキーマ全体をユーザテキストでエンコードする必要がある。
大規模な構造化データベースをサブセット化するのに、標準的な高密度検索技術は不十分である。
大規模データベース上でスキーマサブセットを作成するためのベンチマークを3つ導入する。
論文 参考訳(メタデータ) (2023-11-02T12:13:52Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema
Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。
本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。
3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-08-08T03:59:33Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。