論文の概要: DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases
- arxiv url: http://arxiv.org/abs/2403.00872v1
- Date: Fri, 1 Mar 2024 07:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:18:46.080795
- Title: DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases
- Title(参考訳): DFIN-SQL:DIN-SQLと集中型スキーマの統合による大規模データベースの高精度化
- Authors: Shai Volvovsky, Marco Marcassa, Mustafa Panbiharwala
- Abstract要約: 本稿では,DIN-composed (Decomposed-In-Context) の革新的な拡張であるDFINを紹介する。
DFINは、不正確な主要なソースであるスキーマリンクエラーに対処することで、テキストからコンポジションへの変換を強化する。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価では、DFINは効率だけでなく精度も向上し、51.69のスコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of converting natural language queries into SQL queries is
intricate, necessitating a blend of precise techniques for an accurate
translation. The DIN-SQL (Decomposed-In-Context SQL) methodology represents a
significant development in this domain. This paper introduces DFIN (Decomposed
Focused-In-Context), an innovative extension of DIN-SQL that enhances
Text-to-SQL conversion by addressing schema linking errors, which are a major
source of inaccuracies. DFIN uniquely alternates between prompting techniques
and Retrieval-Augmented Generation (RAG), adapting to the size and complexity
of the database schema. A preprocessing phase embeds database definitions and
leverages annotated files, akin to those in the BIRD dataset, facilitating the
runtime retrieval of pertinent schema information. This strategy significantly
reduces the token count for schema linking prompts, enabling the use of a
standard GPT-4 model over its larger context variant, thus handling large-scale
databases more effectively and economically. Our evaluation on the BIRD
dataset, a challenging real-world benchmark, demonstrates that DFIN not only
scales efficiently but also improves accuracy, achieving a score of 51.69. This
improvement surpasses DIN-SQL method (the current third-place), which is the
highest-ranked model employing in-context learning rather than fine-tuning,
previously scoring 50.72. The advancement of DFIN underscores the evolving
capabilities of in-context learning methodologies combined with advanced
language models, offering a promising avenue for future research in complex
Text-to-SQL conversion tasks.
- Abstract(参考訳): 自然言語クエリをsqlクエリに変換するタスクは複雑で、正確な翻訳のための正確なテクニックをブレンドする必要がある。
DIN-SQL (Decomposed-In-Context SQL) の方法論は、この領域における重要な発展を示している。
本稿では,dfin (decomposed focused-in-context) について紹介する。din-sqlの革新的な拡張であり,不正確性の主要な原因であるスキーマリンクエラーに対処することで,テキストからsqlへの変換を強化する。
DFINはプロンプト技術とRAG(Retrieval-Augmented Generation)を一意に交互に置き換え、データベーススキーマのサイズと複雑さに適応する。
事前処理フェーズはデータベース定義を埋め込んで、BIRDデータセットに似たアノテーション付きファイルを活用することで、関連するスキーマ情報のランタイム検索を容易にする。
この戦略は、スキーマリンクプロンプトのトークン数を著しく減らし、より大きなコンテキストのバリエーションに標準のGPT-4モデルを使用することで、大規模データベースをより効果的かつ経済的に扱うことができる。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価は、DFINが効率よくスケールするだけでなく、精度も向上し、51.69のスコアを得ることを示した。
この改善は、以前50.72点だった微調整ではなく、コンテキスト内学習を用いた最高ランクのモデルであるdin-sql法(現在の第3位)を上回っている。
DFINの進歩は、先進的な言語モデルと組み合わされた文脈内学習方法論の進化的能力を強調し、複雑なテキストからSQLへの変換タスクにおける将来的な研究の道筋を提供する。
関連論文リスト
- CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [48.523327752786585]
我々は,新しいテキスト・ツー・データベース・ベースのマルチエージェント・コラボレーティブ・フレームワークであるMACを紹介する。
本フレームワークは,テキスト・ツー・ジェネレーションのためのコア・デコンポーザ・エージェントと,数発のチェーン・オブ・シークレット・推論を備える。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、GPT-4のようにCode 7Bを活用して、オープンソースの命令フォローモデルsql-Llamaを微調整する。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - DBCopilot: Scaling Natural Language Querying to Massive Databases [49.366970974952125]
既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。
本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
論文 参考訳(メタデータ) (2023-12-06T12:37:28Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z) - xDBTagger: Explainable Natural Language Interface to Databases Using
Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。
我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。
xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文 参考訳(メタデータ) (2022-10-07T18:17:09Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。