論文の概要: Exploring Underexplored Limitations of Cross-Domain Text-to-SQL
Generalization
- arxiv url: http://arxiv.org/abs/2109.05157v1
- Date: Sat, 11 Sep 2021 02:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:51:31.387069
- Title: Exploring Underexplored Limitations of Cross-Domain Text-to-SQL
Generalization
- Title(参考訳): クロスドメインテキスト-SQL一般化の探索的限界を探る
- Authors: Yujian Gan, Xinyun Chen, Matthew Purver
- Abstract要約: 既存のテキスト変換モデルは、トレーニングデータに頻繁に現れないドメイン知識に直面すると一般化しない。
本研究は,ドメイン知識の観察が稀な場合のテキスト・ツー・カレーション・モデルのロバスト性について考察する。
トレーニングセットにドメイン知識が現れても,そのようなドメイン知識を必要とするサンプルに対して,予測精度が劇的に低下することを示す。
- 参考スコア(独自算出の注目度): 20.550737675032448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress in studying neural networks for
translating text descriptions into SQL queries under the zero-shot cross-domain
setting. Despite achieving good performance on some public benchmarks, we
observe that existing text-to-SQL models do not generalize when facing domain
knowledge that does not frequently appear in the training data, which may
render the worse prediction performance for unseen domains. In this work, we
investigate the robustness of text-to-SQL models when the questions require
rarely observed domain knowledge. In particular, we define five types of domain
knowledge and introduce Spider-DK (DK is the abbreviation of domain knowledge),
a human-curated dataset based on the Spider benchmark for text-to-SQL
translation. NL questions in Spider-DK are selected from Spider, and we modify
some samples by adding domain knowledge that reflects real-world question
paraphrases. We demonstrate that the prediction accuracy dramatically drops on
samples that require such domain knowledge, even if the domain knowledge
appears in the training set, and the model provides the correct predictions for
related training samples.
- Abstract(参考訳): 近年、ゼロショットクロスドメイン設定の下で、テキスト記述をSQLクエリに変換するニューラルネットワークの研究が大幅に進展している。
いくつかの公開ベンチマークで優れたパフォーマンスを達成しているにもかかわらず、トレーニングデータに頻繁に現れないドメイン知識に直面すると、既存のテキスト-SQLモデルが一般化しないことが観察される。
本研究では,テキストからSQLへのモデルの堅牢性について検討する。
特に,5種類のドメイン知識を定義し,テキストからSQLへの翻訳のためのSpiderベンチマークに基づく人間計算データセットであるSpider-DK(DKはドメイン知識の略)を導入する。
スパイダーDKのNL質問はスパイダーから選択され、実世界の質問パラフレーズを反映したドメイン知識を追加することでいくつかのサンプルを変更する。
学習セットにドメイン知識が出現しても,そのようなドメイン知識を必要とするサンプルに対して,予測精度が劇的に低下することを示し,関連するトレーニングサンプルに対する正確な予測を提供する。
関連論文リスト
- Improving Generalization in Semantic Parsing by Increasing Natural
Language Variation [67.13483734810852]
本研究では,テキスト間セマンティック解析の堅牢性を高めるためにデータ拡張を利用する。
私たちは、より現実的で多様な質問を生成するために、大きな言語モデルの能力を活用しています。
いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。
論文 参考訳(メタデータ) (2024-02-13T18:48:23Z) - Domain Adaptation of a State of the Art Text-to-SQL Model: Lessons
Learned and Challenges Found [1.9963385352536616]
我々は、ベースとなるT5言語モデルとPicardが、Spiderデータセットとは異なるクエリ構造でどれだけうまく機能するかを分析する。
本稿では,ルールベースの手法を用いて,入力問題における値の曖昧化を行う方法を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:30:21Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic
Knowledge [54.85168428642474]
我々は、さまざまなドメインをカバーするドメイン固有の質問からなる新しい中国のベンチマークKnowを構築した。
次に、付加的なデータ例に注釈を付けるのではなく、公式知識を提示することでこの問題に対処する。
より具体的には、ドメイン知識基盤として定式的知識バンクを構築し、解析中にこの定式的知識を活用するためのフレームワーク(ReGrouP)を提案する。
論文 参考訳(メタデータ) (2023-01-03T12:37:47Z) - DocuT5: Seq2seq SQL Generation with Table Documentation [5.586191108738563]
我々は、新しいテキスト・ツー・タコノミーの失敗分類を開発し、19.6%のエラーが外国の重大な誤りによるものであることを発見した。
本研究では,(1)外部キーの表構造コンテキストから知識を抽出するDocuT5を提案する。
どちらのタイプの知識も、スパイダー上の制約付き復号化によって最先端のT5よりも改善され、ドメイン知識はスパイダーDKやスパイダーSYNのデータセットで最先端に匹敵する効果を生み出す。
論文 参考訳(メタデータ) (2022-11-11T13:31:55Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。