論文の概要: AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale
- arxiv url: http://arxiv.org/abs/2511.17190v1
- Date: Fri, 21 Nov 2025 12:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.007865
- Title: AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale
- Title(参考訳): AutoLink: 大規模テキストからSQLへのスケーラブルスキーマリンクのための自動スキーマ探索と拡張
- Authors: Ziyang Wang, Yuanlei Zheng, Zhenbiao Cao, Xiaojin Zhang, Zhongyu Wei, Pei Fu, Zhenbo Luo, Wei Chen, Xiang Bai,
- Abstract要約: 既存の方法は違法なコストを発生させ、リコールとノイズのトレードオフに苦労し、大規模データベースに不利なスケーリングを行う。
我々は、反復的エージェント駆動プロセスとしてスキーマリンクを再構成する、自律的なエージェントフレームワークであるtextbfAutoLinkを提案する。
実験ではAutoLinkの優れたパフォーマンスを示し、最先端の厳密なスキーマリンクのリコール、すなわち textbf68.7% EX on Bird-Dev (CHESSより優れている)、 textbf34.9% EX on Spider-2.0-Lite (第2位)を実現している。
- 参考スコア(独自算出の注目度): 68.29002818359844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For industrial-scale text-to-SQL, supplying the entire database schema to Large Language Models (LLMs) is impractical due to context window limits and irrelevant noise. Schema linking, which filters the schema to a relevant subset, is therefore critical. However, existing methods incur prohibitive costs, struggle to trade off recall and noise, and scale poorly to large databases. We present \textbf{AutoLink}, an autonomous agent framework that reformulates schema linking as an iterative, agent-driven process. Guided by an LLM, AutoLink dynamically explores and expands the linked schema subset, progressively identifying necessary schema components without inputting the full database schema. Our experiments demonstrate AutoLink's superior performance, achieving state-of-the-art strict schema linking recall of \textbf{97.4\%} on Bird-Dev and \textbf{91.2\%} on Spider-2.0-Lite, with competitive execution accuracy, i.e., \textbf{68.7\%} EX on Bird-Dev (better than CHESS) and \textbf{34.9\%} EX on Spider-2.0-Lite (ranking 2nd on the official leaderboard). Crucially, AutoLink exhibits \textbf{exceptional scalability}, \textbf{maintaining high recall}, \textbf{efficient token consumption}, and \textbf{robust execution accuracy} on large schemas (e.g., over 3,000 columns) where existing methods severely degrade-making it a highly scalable, high-recall schema-linking solution for industrial text-to-SQL systems.
- Abstract(参考訳): 産業規模のテキスト・トゥ・SQLでは、データベーススキーマ全体をLLM(Large Language Models)に供給することは、コンテキストウィンドウの制限と無関係なノイズのために現実的ではない。
したがって、スキーマを関連するサブセットにフィルタリングするスキーマリンクが重要である。
しかし、既存の方法は禁止コストを発生させ、リコールとノイズのトレードオフに苦慮し、大規模データベースに不利なスケーリングを行う。
本稿では,反復型エージェント駆動プロセスとしてスキーマリンクを再構成する自律エージェントフレームワークである‘textbf{AutoLink}を提示する。
LLMによってガイドされたAutoLinkは、リンクされたスキーマサブセットを動的に探索し、拡張し、完全なデータベーススキーマを入力することなく、必要なスキーマコンポーネントを段階的に識別する。
実験では,Bird-2.0-Lite上での \textbf{97.4\%} と,Spider-2.0-Lite上での \textbf{91.2\%} のリコール,すなわち,Bird-Dev上での Ex on Bird-68.7\%} EX on Spider-2.0-Lite (公式リーダーボードでは2位) と \textbf{34.9\%} EX on Spider-2.0-Lite上での Ex on Spider-2.0-Lite (公式リーダボードでは2位) をリンクした,最先端の厳密なスキーマの実現を実証した。
重要な点として、AutoLinkは、大規模なスキーマ(例:3,000カラム以上)上で、 \textbf{Exceptionional scalability}、 \textbf{maintaining high recall}、 \textbf{efficient token consumption}、 \textbf{robust execution accuracy} を展示している。
関連論文リスト
- UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [24.740161980003652]
LinkAlignは、数千のフィールドを持つ大規模データベースに適した、新しいフレームワークである。
LinkAlignは、すべてのスキーマリンクメトリクスにおいて、既存のベースラインを一貫して上回る。
これは、Spider 2.0-Liteベンチマークで33.09%の新しい最先端スコアを達成した。
論文 参考訳(メタデータ) (2025-03-24T11:53:06Z) - Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。
本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T19:57:08Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。
より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。
文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文 参考訳(メタデータ) (2024-08-14T17:59:04Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。