論文の概要: Scaling Text2SQL via LLM-efficient Schema Filtering with Functional Dependency Graph Rerankers
- arxiv url: http://arxiv.org/abs/2512.16083v1
- Date: Thu, 18 Dec 2025 01:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.877678
- Title: Scaling Text2SQL via LLM-efficient Schema Filtering with Functional Dependency Graph Rerankers
- Title(参考訳): 関数依存グラフリランカを用いたLLM効率スキーマフィルタリングによるText2SQLのスケーリング
- Authors: Thanh Dat Hoang, Thanh Tam Nguyen, Thanh Trung Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen,
- Abstract要約: 現代のText2システムのほとんどは、ユーザの質問と並んでスキーマ全体の大きな言語モデル(LLM)を起動する。
Toolnameは、クエリを意識した列のランク付けによってText2プロンプトをコンパクト化するオープンソースのフレームワークである。
実験の結果、ツールネームはCodeS、エンコーダExP、Qwenリランカ、埋め込みレトリバーよりも完全に近いリコールと高精度を実現していることがわかった。
- 参考スコア(独自算出の注目度): 38.94000136647706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most modern Text2SQL systems prompt large language models (LLMs) with entire schemas -- mostly column information -- alongside the user's question. While effective on small databases, this approach fails on real-world schemas that exceed LLM context limits, even for commercial models. The recent Spider 2.0 benchmark exemplifies this with hundreds of tables and tens of thousands of columns, where existing systems often break. Current mitigations either rely on costly multi-step prompting pipelines or filter columns by ranking them against user's question independently, ignoring inter-column structure. To scale existing systems, we introduce \toolname, an open-source, LLM-efficient schema filtering framework that compacts Text2SQL prompts by (i) ranking columns with a query-aware LLM encoder enriched with values and metadata, (ii) reranking inter-connected columns via a lightweight graph transformer over functional dependencies, and (iii) selecting a connectivity-preserving sub-schema with a Steiner-tree heuristic. Experiments on real datasets show that \toolname achieves near-perfect recall and higher precision than CodeS, SchemaExP, Qwen rerankers, and embedding retrievers, while maintaining sub-second median latency and scaling to schemas with 23,000+ columns. Our source code is available at https://github.com/thanhdath/grast-sql.
- Abstract(参考訳): 現代のText2SQLシステムのほとんどは、ユーザの質問に従って、スキーマ全体(主に列情報)で大きな言語モデル(LLM)を起動する。
このアプローチは小さなデータベースでは有効だが、商業モデルであっても、LLMコンテキスト限界を超える実世界のスキーマでは失敗する。
最近のSpider 2.0ベンチマークは、数百のテーブルと数万の列でこれを実証している。
現在の緩和策は、コストのかかる複数ステップのパイプラインのプロンプトか、カラム間構造を無視して、ユーザの質問に独立してランク付けすることでカラムをフィルタリングする。
既存のシステムをスケールするために,Text2SQLプロンプトを圧縮するオープンソースのLCM効率のスキーマフィルタリングフレームワークである \toolname を導入する。
i) 値とメタデータが豊富なクエリ対応LLMエンコーダで列をランク付けする。
(二)機能依存上の軽量グラフ変換器を介して接続間列を再配置し、
3)Steiner-treeヒューリスティックを用いた接続保存サブスキーマの選択。
実際のデータセットの実験では、‘toolname’はCodeS、SchemaExP、Qwenリランカ、埋め込みレトリバーよりもほぼ完全なリコールと高い精度を実現し、サブ秒の中央値レイテンシを維持し、23,000カラム以上のスキーマへのスケーリングを実現している。
ソースコードはhttps://github.com/thanhdath/grast-sql.comで公開しています。
関連論文リスト
- AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale [68.29002818359844]
既存の方法は違法なコストを発生させ、リコールとノイズのトレードオフに苦労し、大規模データベースに不利なスケーリングを行う。
我々は、反復的エージェント駆動プロセスとしてスキーマリンクを再構成する、自律的なエージェントフレームワークであるtextbfAutoLinkを提案する。
実験ではAutoLinkの優れたパフォーマンスを示し、最先端の厳密なスキーマリンクのリコール、すなわち textbf68.7% EX on Bird-Dev (CHESSより優れている)、 textbf34.9% EX on Spider-2.0-Lite (第2位)を実現している。
論文 参考訳(メタデータ) (2025-11-21T12:12:17Z) - SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases [1.6544167074080365]
本稿では、まず、外部キー関係に基づくスキーマグラフを構築する、ゼロショットでトレーニング不要なスキーマリンク手法を提案する。
我々は、結合すべきテーブルや列の最適なシーケンスを特定するために、古典的なパスフィニングアルゴリズムと後処理を適用する。
提案手法はBIRDベンチマークの最先端結果を実現し,従来の特殊化,微調整,複雑な多段階LCMに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T20:42:36Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [24.740161980003652]
LinkAlignは、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークである。
LinkAlignは、すべてのスキーマリンクメトリクスにおいて、既存のベースラインを一貫して上回る。
これは、Spider 2.0-Liteベンチマークで33.09%の新しい最先端スコアを達成した。
論文 参考訳(メタデータ) (2025-03-24T11:53:06Z) - Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。
本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T19:57:08Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL [47.14954737590405]
既存のテキストからテキストへのジェネレータでは、スキーマ全体をユーザテキストでエンコードする必要がある。
大規模な構造化データベースをサブセット化するのに、標準的な高密度検索技術は不十分である。
大規模データベース上でスキーマサブセットを作成するためのベンチマークを3つ導入する。
論文 参考訳(メタデータ) (2023-11-02T12:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。