論文の概要: Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain
Adapted Least-To-Most Prompting
- arxiv url: http://arxiv.org/abs/2308.02582v3
- Date: Wed, 9 Aug 2023 09:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 10:50:42.841796
- Title: Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain
Adapted Least-To-Most Prompting
- Title(参考訳): Adapt and Decompose: Domain Adapted Least-to-Most PromptingによるText-to-SQLの効率的な一般化
- Authors: Aseem Arora, Shabbirhussain Bhaisaheb, Harshit Nigam, Manasi
Patwardhan, Lovekesh Vig, Gautam Shroff
- Abstract要約: テキスト・ツー・セマンティック・パーシングのクロスドメインとクロスコンポジションの一般化は難しい課題である。
既存のソリューションは、自然言語(NL)テストクエリ毎に実行時のプロンプトを合成するために、トレーニングセットから少数ショット例の推論時検索に依存している。
対照的に、トレーニングデータから最小数ショットのセットをオフラインでサンプリングするアルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 17.76680432249867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain and cross-compositional generalization of Text-to-SQL semantic
parsing is a challenging task. Existing Large Language Model (LLM) based
solutions rely on inference-time retrieval of few-shot exemplars from the
training set to synthesize a run-time prompt for each Natural Language (NL)
test query. In contrast, we devise an algorithm which performs offline sampling
of a minimal set-of few-shots from the training data, with complete coverage of
SQL clauses, operators and functions, and maximal domain coverage within the
allowed token length. This allows for synthesis of a fixed Generic Prompt (GP),
with a diverse set-of exemplars common across NL test queries, avoiding
expensive test time exemplar retrieval. We further auto-adapt the GP to the
target database domain (DA-GP), to better handle cross-domain generalization;
followed by a decomposed Least-To-Most-Prompting (LTMP-DA-GP) to handle
cross-compositional generalization. The synthesis of LTMP-DA-GP is an offline
task, to be performed one-time per new database with minimal human
intervention. Our approach demonstrates superior performance on the KaggleDBQA
dataset, designed to evaluate generalizability for the Text-to-SQL task. We
further showcase consistent performance improvement of LTMP-DA-GP over GP,
across LLMs and databases of KaggleDBQA, highlighting the efficacy and model
agnostic benefits of our prompt based adapt and decompose approach.
- Abstract(参考訳): Text-to-SQLセマンティックパーシングのクロスドメインとクロスコンポーネントの一般化は難しい課題である。
既存のLarge Language Model (LLM) ベースのソリューションは、自然言語(NL)テストクエリ毎に実行時のプロンプトを合成するために、トレーニングセットから少数ショットの例の推論時検索に依存する。
対照的に、トレーニングデータから最小限の少数のショットをオフラインでサンプリングするアルゴリズムを考案し、SQL節、演算子、関数を完全にカバーし、許容トークン長内でのドメインカバレッジを最大化する。
これにより、固定されたジェネリック・プロンプト (GP) の合成が可能となり、NLテストクエリに共通する様々な例のセットで、高価なテストタイムの例検索を避けることができる。
さらに、GPをターゲットデータベース領域(DA-GP)に自動適応させ、クロスドメインの一般化をよりうまく処理し、次いで、クロスコンポジションの一般化を扱うために分解されたLast-To-Most-Prompting(LTMP-DA-GP)を処理します。
LTMP-DA-GPの合成はオフラインタスクであり、人間の介入を最小限に抑えた新しいデータベースに対して1回ずつ実行される。
提案手法は,テキストからSQLへのタスクの一般化性を評価するために設計されたKaggleDBQAデータセット上で,優れた性能を示す。
さらに,GP 上での LTMP-DA-GP の性能改善を LLM や KaggleDBQA のデータベース上で一貫した性能向上を示し,本手法の有効性とモデルに依存しない利点を強調した。
関連論文リスト
- MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Diverse Parallel Data Synthesis for Cross-Database Adaptation of
Text-to-SQL Parsers [21.272952382662215]
新しいデータベースへの適応は、新しいスキーマに自然言語クエリがないため、難しい問題である。
ターゲットスキーマにText-to-editを適用するためのフレームワークであるReFillを提案する。
論文 参考訳(メタデータ) (2022-10-29T14:30:53Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。