Fugu-MT 論文翻訳(概要): CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL

論文の概要: CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL

arxiv url: http://arxiv.org/abs/2311.01173v1
Date: Thu, 2 Nov 2023 12:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 13:49:23.572441
Title: CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL
Title（参考訳）: CRUSH4SQL: Text2SQLのスキーマ幻覚を用いた集合検索
Authors: Mayank Kothyari, Dhruva Dhingra, Sunita Sarawagi, Soumen Chakrabarti
Abstract要約: 既存のテキストからテキストへのジェネレータでは、スキーマ全体をユーザテキストでエンコードする必要がある。大規模な構造化データベースをサブセット化するのに、標準的な高密度検索技術は不十分である。大規模データベース上でスキーマサブセットを作成するためのベンチマークを3つ導入する。
参考スコア（独自算出の注目度）: 47.14954737590405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing Text-to-SQL generators require the entire schema to be encoded with the user text. This is expensive or impractical for large databases with tens of thousands of columns. Standard dense retrieval techniques are inadequate for schema subsetting of a large structured database, where the correct semantics of retrieval demands that we rank sets of schema elements rather than individual elements. In response, we propose a two-stage process for effective coverage during retrieval. First, we instruct an LLM to hallucinate a minimal DB schema deemed adequate to answer the query. We use the hallucinated schema to retrieve a subset of the actual schema, by composing the results from multiple dense retrievals. Remarkably, hallucination $\unicode{x2013}$ generally considered a nuisance $\unicode{x2013}$ turns out to be actually useful as a bridging mechanism. Since no existing benchmarks exist for schema subsetting on large databases, we introduce three benchmarks. Two semi-synthetic datasets are derived from the union of schemas in two well-known datasets, SPIDER and BIRD, resulting in 4502 and 798 schema elements respectively. A real-life benchmark called SocialDB is sourced from an actual large data warehouse comprising 17844 schema elements. We show that our method1 leads to significantly higher recall than SOTA retrieval-based augmentation methods.
Abstract（参考訳）: 既存のtext-to-sqlジェネレータは、スキーマ全体をユーザテキストでエンコードする必要がある。これは数万の列を持つ大規模データベースにとって高価または実用的ではない。標準的な高密度検索技術は、大規模な構造化データベースのスキーマサブセット作成には不十分であり、検索の正しいセマンティクスは、個々の要素ではなくスキーマ要素のセットをランク付けする必要がある。そこで本研究では,検索時の効果的なカバレッジのための2段階プロセスを提案する。まず、llmにクエリに答えるのに十分な最小のdbスキーマを指導するように指示する。複数の密集検索から結果を合成することにより、幻影スキーマを用いて実際のスキーマのサブセットを検索する。興味深いことに、幻覚 $\unicode{x2013}$ は一般にニュアンス $\unicode{x2013}$ と見なされている。大規模データベース上でスキーマをサブセットするベンチマークは存在しないため、3つのベンチマークを導入する。 2つの半合成データセットは、よく知られた2つのデータセット、SPIDERとBIRDのスキーマの結合から導出され、それぞれ4502と798のスキーマ要素となる。 socialdbと呼ばれる実生活ベンチマークは、17844のスキーマ要素からなる実際の大規模データウェアハウスからソースされる。提案手法は, sota検索に基づく拡張法に比べて, かなり高いリコール率を示す。

関連論文リスト

Scaling Text2SQL via LLM-efficient Schema Filtering with Functional Dependency Graph Rerankers [38.94000136647706]
現代のText2システムのほとんどは、ユーザの質問と並んでスキーマ全体の大きな言語モデル(LLM)を起動する。 Toolnameは、クエリを意識した列のランク付けによってText2プロンプトをコンパクト化するオープンソースのフレームワークである。実験の結果、ツールネームはCodeS、エンコーダExP、Qwenリランカ、埋め込みレトリバーよりも完全に近いリコールと高精度を実現していることがわかった。
論文参考訳（メタデータ） (2025-12-18T01:59:06Z)
AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale [68.29002818359844]
既存の方法は違法なコストを発生させ、リコールとノイズのトレードオフに苦労し、大規模データベースに不利なスケーリングを行う。我々は、反復的エージェント駆動プロセスとしてスキーマリンクを再構成する、自律的なエージェントフレームワークであるtextbfAutoLinkを提案する。実験ではAutoLinkの優れたパフォーマンスを示し、最先端の厳密なスキーマリンクのリコール、すなわち textbf68.7% EX on Bird-Dev (CHESSより優れている)、 textbf34.9% EX on Spider-2.0-Lite (第2位)を実現している。
論文参考訳（メタデータ） (2025-11-21T12:12:17Z)
Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL [14.44163500388232]
本稿では,スキーマリンクを独立した問題として扱う,コンテキスト対応の双方向スキーマ検索フレームワークを提案する。提案手法は,テーブル優先検索と列選択,列優先検索とテーブル選択の2つの相補的戦略を組み合わせる。提案手法は,完全なスキーマ設定と完全なスキーマ設定のギャップを50%縮小する。
論文参考訳（メタデータ） (2025-10-16T04:46:22Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
Enhancing Text2Cypher with Schema Filtering [0.0]
Cypherはグラフデータベースのための強力なクエリ言語である。近年の大規模言語モデルの進歩により、自然言語の質問をCypherクエリ - Text2Cypherに翻訳できるようになった。本研究では、Text2Cypherタスクのさまざまなスキーマフィルタリング方法を検討し、トークンの長さ、パフォーマンス、コストへの影響を分析する。
論文参考訳（メタデータ） (2025-05-08T10:42:20Z)
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [14.677024710675838]
LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。 SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。 LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳（メタデータ） (2025-03-24T11:53:06Z)
Extractive Schema Linking for Text-to-SQL [17.757832644216446]
テキスト・トゥ・ワンは、現実世界のデータベースの実用的なインターフェースとして現れつつある。本稿では,デコーダのみのLLMをスキーマリンクに適用するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-01-23T19:57:08Z)
SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark [4.049028351548513]
異なるデータベースモデルは、クエリの複雑さとパフォーマンスに大きな影響を与えます。 SM3-Text-to-Queryは,最初のマルチモデル医療用テキスト-to-Queryベンチマークである。
論文参考訳（メタデータ） (2024-11-08T12:27:13Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models [0.9149661171430259]
次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。文脈情報をフィルタリングする代わりに、拡張、選択、修正などのテクニックを強調し、テキストからBIRDパイプラインの精度を向上させるためにそれらを採用する。
論文参考訳（メタデータ） (2024-08-14T17:59:04Z)
Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文参考訳（メタデータ） (2023-10-20T17:00:53Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Improving Text-to-SQL Semantic Parsing with Fine-grained Query Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文参考訳（メタデータ） (2022-09-28T21:00:30Z)
Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。 3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文参考訳（メタデータ） (2022-08-08T03:59:33Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser [36.12921337235763]
抽象レベルとセマンティックレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案します。チャレンジングなText-to-Spiderベンチマークでは、経験的な結果がShadowGNNが最先端のモデルを上回ることを示しています。
論文参考訳（メタデータ） (2021-04-10T05:48:28Z)
Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。 BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文参考訳（メタデータ） (2020-12-23T12:33:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。