Fugu-MT 論文翻訳(概要): Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain Adapted Least-To-Most Prompting

論文の概要: Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain Adapted Least-To-Most Prompting

arxiv url: http://arxiv.org/abs/2308.02582v3
Date: Wed, 9 Aug 2023 09:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 10:50:42.841796
Title: Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain Adapted Least-To-Most Prompting
Title（参考訳）: Adapt and Decompose: Domain Adapted Least-to-Most PromptingによるText-to-SQLの効率的な一般化
Authors: Aseem Arora, Shabbirhussain Bhaisaheb, Harshit Nigam, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff
Abstract要約: テキスト・ツー・セマンティック・パーシングのクロスドメインとクロスコンポジションの一般化は難しい課題である。既存のソリューションは、自然言語(NL)テストクエリ毎に実行時のプロンプトを合成するために、トレーニングセットから少数ショット例の推論時検索に依存している。対照的に、トレーニングデータから最小数ショットのセットをオフラインでサンプリングするアルゴリズムを考案する。
参考スコア（独自算出の注目度）: 17.76680432249867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-domain and cross-compositional generalization of Text-to-SQL semantic parsing is a challenging task. Existing Large Language Model (LLM) based solutions rely on inference-time retrieval of few-shot exemplars from the training set to synthesize a run-time prompt for each Natural Language (NL) test query. In contrast, we devise an algorithm which performs offline sampling of a minimal set-of few-shots from the training data, with complete coverage of SQL clauses, operators and functions, and maximal domain coverage within the allowed token length. This allows for synthesis of a fixed Generic Prompt (GP), with a diverse set-of exemplars common across NL test queries, avoiding expensive test time exemplar retrieval. We further auto-adapt the GP to the target database domain (DA-GP), to better handle cross-domain generalization; followed by a decomposed Least-To-Most-Prompting (LTMP-DA-GP) to handle cross-compositional generalization. The synthesis of LTMP-DA-GP is an offline task, to be performed one-time per new database with minimal human intervention. Our approach demonstrates superior performance on the KaggleDBQA dataset, designed to evaluate generalizability for the Text-to-SQL task. We further showcase consistent performance improvement of LTMP-DA-GP over GP, across LLMs and databases of KaggleDBQA, highlighting the efficacy and model agnostic benefits of our prompt based adapt and decompose approach.
Abstract（参考訳）: Text-to-SQLセマンティックパーシングのクロスドメインとクロスコンポーネントの一般化は難しい課題である。既存のLarge Language Model (LLM) ベースのソリューションは、自然言語(NL)テストクエリ毎に実行時のプロンプトを合成するために、トレーニングセットから少数ショットの例の推論時検索に依存する。対照的に、トレーニングデータから最小限の少数のショットをオフラインでサンプリングするアルゴリズムを考案し、SQL節、演算子、関数を完全にカバーし、許容トークン長内でのドメインカバレッジを最大化する。これにより、固定されたジェネリック・プロンプト (GP) の合成が可能となり、NLテストクエリに共通する様々な例のセットで、高価なテストタイムの例検索を避けることができる。さらに、GPをターゲットデータベース領域(DA-GP)に自動適応させ、クロスドメインの一般化をよりうまく処理し、次いで、クロスコンポジションの一般化を扱うために分解されたLast-To-Most-Prompting(LTMP-DA-GP)を処理します。 LTMP-DA-GPの合成はオフラインタスクであり、人間の介入を最小限に抑えた新しいデータベースに対して1回ずつ実行される。提案手法は,テキストからSQLへのタスクの一般化性を評価するために設計されたKaggleDBQAデータセット上で,優れた性能を示す。さらに,GP 上での LTMP-DA-GP の性能改善を LLM や KaggleDBQA のデータベース上で一貫した性能向上を示し,本手法の有効性とモデルに依存しない利点を強調した。

関連論文リスト

Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
Text-to-SQL based on Large Language Models and Database Keyword Search [0.0]
本稿では,自然言語 (NL) 質問を intosql クエリにコンパイルする手法を提案する。この戦略にはダイナミックな数ショットの例戦略が含まれており、データベースキーワード検索(KwS)プラットフォームが提供するサービスを活用している。実験により、この戦略は最先端のアプローチを超越した実世界のリレーショナルデータベース上での精度を達成することが示された。
論文参考訳（メタデータ） (2025-01-23T12:03:29Z)
Learning Metadata-Agnostic Representations for Text-to-SQL In-Context Example Selection [0.3277163122167434]
In-context Learning(ICL)は、大きな言語モデル(LLM)がプロンプトに追加されたタスクデモの恩恵を受ける強力なパラダイムである。本稿では,自然言語質問の表現と,共有埋め込み空間におけるクエリの表現を整列する手法を提案する。我々の手法はMARLOと呼ばれ、クエリ構造を用いてデータベースメタデータを過剰にインデクシングすることなくクエリインテントをモデル化する。
論文参考訳（メタデータ） (2024-10-17T21:45:55Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning [10.731045939849125]
本稿では,テキストからセマンティックへの解析に注目する。商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションのデプロイ可能性に関する課題から,入力データベース情報を動的に取得する $textASTReS$ を提案する。
論文参考訳（メタデータ） (2024-07-03T15:55:14Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文参考訳（メタデータ） (2024-05-13T04:59:32Z)
MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文参考訳（メタデータ） (2023-10-08T04:44:36Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。 PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。 GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文参考訳（メタデータ） (2021-04-12T21:24:02Z)
DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。 8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文参考訳（メタデータ） (2021-01-11T22:54:39Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
Conversational Question Reformulation via Sequence-to-Sequence Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文参考訳（メタデータ） (2020-04-04T11:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。