論文の概要: Measuring and Improving Compositional Generalization in Text-to-SQL via
Component Alignment
- arxiv url: http://arxiv.org/abs/2205.02054v1
- Date: Wed, 4 May 2022 13:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:28:11.646391
- Title: Measuring and Improving Compositional Generalization in Text-to-SQL via
Component Alignment
- Title(参考訳): コンポーネントアライメントによるテキストからSQLへの合成一般化の測定と改善
- Authors: Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver
- Abstract要約: 合成一般化を生成するための節レベルの合成例生成法を提案する。
そこで本研究では,Spider-SSとSpider-CGのデータセットを構築し,構成を一般化するモデルの有効性を検証した。
実験の結果,既存のモデルではスパイダーCGで評価した場合,大幅な性能劣化がみられた。
我々は,Spider-SSのセグメント化データをトレーニングするために,多数の最先端モデルを修正し,この手法が一般化性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 23.43452719573272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-SQL tasks -- as in much of NLP -- compositional generalization is
a major challenge: neural networks struggle with compositional generalization
where training and test distributions differ. However, most recent attempts to
improve this are based on word-level synthetic data or specific dataset splits
to generate compositional biases. In this work, we propose a clause-level
compositional example generation method. We first split the sentences in the
Spider text-to-SQL dataset into sub-sentences, annotating each sub-sentence
with its corresponding SQL clause, resulting in a new dataset Spider-SS. We
then construct a further dataset, Spider-CG, by composing Spider-SS
sub-sentences in different combinations, to test the ability of models to
generalize compositionally. Experiments show that existing models suffer
significant performance degradation when evaluated on Spider-CG, even though
every sub-sentence is seen during training. To deal with this problem, we
modify a number of state-of-the-art models to train on the segmented data of
Spider-SS, and we show that this method improves the generalization
performance.
- Abstract(参考訳): NLPの大部分がそうであるように、テキストからSQLへのタスクでは、構成的一般化は大きな課題である。
しかし、これを改善するための最近の試みは、単語レベルの合成データまたは特定のデータセット分割に基づいて構成バイアスを生成する。
本稿では,節レベルの構成例生成手法を提案する。
私たちはまず、SpiderのテキストからSQLへのデータセットの文をサブ文に分割し、それぞれのサブ文に対応するSQL節を注釈付けし、新しいデータセットのSpider-SSを作成しました。
次に、異なる組み合わせでSpider-SSサブ文を構成することで、さらに多くのデータセット、Spider-CGを構築し、構成を一般化するモデルの能力をテストする。
実験の結果、既存のモデルでは訓練中に全てのサブ文が見られたとしても、スパイダーCGで評価すると性能が著しく低下することがわかった。
この問題に対処するため,Spider-SSのセグメント化データをトレーニングするために,多数の最先端モデルを修正し,本手法により一般化性能が向上することを示す。
関連論文リスト
- Table Transformers for Imputing Textual Attributes [15.823533688884105]
本稿では,TTITA(Imputing Textual Attributes)のためのテーブルトランスフォーマー(Table Transformer)という新しいエンドツーエンドアプローチを提案する。
提案手法は,リカレントニューラルネットワークやLlama2などのベースラインモデルよりも優れた性能を示す。
マルチタスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を高める。
論文 参考訳(メタデータ) (2024-08-04T19:54:12Z) - Improving Generalization in Semantic Parsing by Increasing Natural
Language Variation [67.13483734810852]
本研究では,テキスト間セマンティック解析の堅牢性を高めるためにデータ拡張を利用する。
私たちは、より現実的で多様な質問を生成するために、大きな言語モデルの能力を活用しています。
いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。
論文 参考訳(メタデータ) (2024-02-13T18:48:23Z) - Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z) - Exploring the Compositional Generalization in Context Dependent
Text-to-SQL Parsing [14.644212594593919]
この研究は、文脈に依存したテクスト・トゥ・ザ・セサリオにおける作曲の一般化に関する最初の調査である。
実験によると、現在のモデルはすべて、提案されたベンチマークで苦労している。
テキスト・トゥ・ザ・セナリオの合成一般化を改善するために,textttp-align という手法を提案する。
論文 参考訳(メタデータ) (2023-05-29T12:36:56Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - SUBS: Subtree Substitution for Compositional Semantic Parsing [50.63574492655072]
本稿では,類似のセマンティック関数を持つサブツリーを交換可能と考える合成データ拡張にサブツリー置換を用いることを提案する。
実験の結果、このような拡張されたデータはSCANとGeoQueryで大幅にパフォーマンスが向上し、GeoQueryの合成分割で新しいSOTAに達した。
論文 参考訳(メタデータ) (2022-05-03T14:47:35Z) - Grounded Graph Decoding Improves Compositional Generalization in
Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。
構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。
本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-05T17:50:14Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。