論文の概要: DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases
- arxiv url: http://arxiv.org/abs/2403.00872v1
- Date: Fri, 1 Mar 2024 07:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:18:46.080795
- Title: DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases
- Title(参考訳): DFIN-SQL:DIN-SQLと集中型スキーマの統合による大規模データベースの高精度化
- Authors: Shai Volvovsky, Marco Marcassa, Mustafa Panbiharwala
- Abstract要約: 本稿では,DIN-composed (Decomposed-In-Context) の革新的な拡張であるDFINを紹介する。
DFINは、不正確な主要なソースであるスキーマリンクエラーに対処することで、テキストからコンポジションへの変換を強化する。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価では、DFINは効率だけでなく精度も向上し、51.69のスコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of converting natural language queries into SQL queries is
intricate, necessitating a blend of precise techniques for an accurate
translation. The DIN-SQL (Decomposed-In-Context SQL) methodology represents a
significant development in this domain. This paper introduces DFIN (Decomposed
Focused-In-Context), an innovative extension of DIN-SQL that enhances
Text-to-SQL conversion by addressing schema linking errors, which are a major
source of inaccuracies. DFIN uniquely alternates between prompting techniques
and Retrieval-Augmented Generation (RAG), adapting to the size and complexity
of the database schema. A preprocessing phase embeds database definitions and
leverages annotated files, akin to those in the BIRD dataset, facilitating the
runtime retrieval of pertinent schema information. This strategy significantly
reduces the token count for schema linking prompts, enabling the use of a
standard GPT-4 model over its larger context variant, thus handling large-scale
databases more effectively and economically. Our evaluation on the BIRD
dataset, a challenging real-world benchmark, demonstrates that DFIN not only
scales efficiently but also improves accuracy, achieving a score of 51.69. This
improvement surpasses DIN-SQL method (the current third-place), which is the
highest-ranked model employing in-context learning rather than fine-tuning,
previously scoring 50.72. The advancement of DFIN underscores the evolving
capabilities of in-context learning methodologies combined with advanced
language models, offering a promising avenue for future research in complex
Text-to-SQL conversion tasks.
- Abstract(参考訳): 自然言語クエリをsqlクエリに変換するタスクは複雑で、正確な翻訳のための正確なテクニックをブレンドする必要がある。
DIN-SQL (Decomposed-In-Context SQL) の方法論は、この領域における重要な発展を示している。
本稿では,dfin (decomposed focused-in-context) について紹介する。din-sqlの革新的な拡張であり,不正確性の主要な原因であるスキーマリンクエラーに対処することで,テキストからsqlへの変換を強化する。
DFINはプロンプト技術とRAG(Retrieval-Augmented Generation)を一意に交互に置き換え、データベーススキーマのサイズと複雑さに適応する。
事前処理フェーズはデータベース定義を埋め込んで、BIRDデータセットに似たアノテーション付きファイルを活用することで、関連するスキーマ情報のランタイム検索を容易にする。
この戦略は、スキーマリンクプロンプトのトークン数を著しく減らし、より大きなコンテキストのバリエーションに標準のGPT-4モデルを使用することで、大規模データベースをより効果的かつ経済的に扱うことができる。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価は、DFINが効率よくスケールするだけでなく、精度も向上し、51.69のスコアを得ることを示した。
この改善は、以前50.72点だった微調整ではなく、コンテキスト内学習を用いた最高ランクのモデルであるdin-sql法(現在の第3位)を上回っている。
DFINの進歩は、先進的な言語モデルと組み合わされた文脈内学習方法論の進化的能力を強調し、複雑なテキストからSQLへの変換タスクにおける将来的な研究の道筋を提供する。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-レポジトリは、直接スキーマリンクと候補述語拡張による課題に対処するために設計された新しいパイプラインである。
E-は、関連するデータベースアイテム(テーブル、列、値)と条件を質問に直接組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
本研究では,従来の研究で広く研究されてきた手法であるスキーマフィルタリングの影響について検討し,先進的な大規模言語モデルと並行して適用した場合のリターンの低下を実証する。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - RH-SQL: Refined Schema and Hardness Prompt for Text-to-SQL [1.734218686180302]
本稿では,精製実行モデルとハードネス・プロンプトに基づくテキスト・トゥ・エクセルの手法を提案する。
パフォーマンスを維持しながら、ストレージとトレーニングのコストを削減する。
スパイダーデータセットに関する我々の実験は、特に大規模なLMを用いて、82.6%の異常な精度(EX)を達成した。
論文 参考訳(メタデータ) (2024-06-13T14:04:34Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。