論文の概要: Finding needles in a haystack: Sampling Structurally-diverse Training
Sets from Synthetic Data for Compositional Generalization
- arxiv url: http://arxiv.org/abs/2109.02575v1
- Date: Mon, 6 Sep 2021 16:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:42:15.830484
- Title: Finding needles in a haystack: Sampling Structurally-diverse Training
Sets from Synthetic Data for Compositional Generalization
- Title(参考訳): 干し草の針を見つける:構成一般化のための合成データから構造的多変量トレーニングセットをサンプリングする
- Authors: Inbar Oren, Jonathan Herzig and Jonathan Berant
- Abstract要約: 意味解析における合成一般化を改善するための合成発話プログラムペアの自動生成について検討する。
構造的に異なる合成例のサブセットを選択し、それらを合成一般化を改善するために利用する。
我々は,スキーマ2QAデータセットの新たな分割に対するアプローチを評価し,それが構成一般化の劇的な改善と従来のi.i.dセットアップの適度な改善につながっていることを示す。
- 参考スコア(独自算出の注目度): 33.30539396439008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern semantic parsers suffer from two principal limitations. First,
training requires expensive collection of utterance-program pairs. Second,
semantic parsers fail to generalize at test time to new compositions/structures
that have not been observed during training. Recent research has shown that
automatic generation of synthetic utterance-program pairs can alleviate the
first problem, but its potential for the second has thus far been
under-explored. In this work, we investigate automatic generation of synthetic
utterance-program pairs for improving compositional generalization in semantic
parsing. Given a small training set of annotated examples and an "infinite"
pool of synthetic examples, we select a subset of synthetic examples that are
structurally-diverse and use them to improve compositional generalization. We
evaluate our approach on a new split of the schema2QA dataset, and show that it
leads to dramatic improvements in compositional generalization as well as
moderate improvements in the traditional i.i.d setup. Moreover,
structurally-diverse sampling achieves these improvements with as few as 5K
examples, compared to 1M examples when sampling uniformly at random -- a 200x
improvement in data efficiency.
- Abstract(参考訳): 現代のセマンティックパーサには2つの大きな制限がある。
まず、トレーニングには高価な発話プログラムペアのコレクションが必要です。
第二に、セマンティックパーザはテスト時にトレーニング中に観察されていない新しい構成や構造に一般化できない。
近年の研究では、合成発話プログラムペアの自動生成が第1問題を緩和できることが示されているが、第2言語への可能性はまだ未定である。
本研究では,構文解析における合成発話・プログラムペアの自動生成について検討する。
注釈付き例の小さな訓練セットと合成例の「無限の」プールが与えられたとき、構造的に多様性のある合成例のサブセットを選択し、それらを用いて合成の一般化を改善する。
我々は,スキーマ2QAデータセットの新たな分割に対するアプローチを評価し,それが構成一般化の劇的な改善と従来のi.i.dセットアップの適度な改善をもたらすことを示す。
さらに、構造的に拡張されたサンプリングは、ランダムにサンプリングする場合の1m例に比べて、わずか5kの例でこれらの改善を達成している。
関連論文リスト
- ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Structurally Diverse Sampling Reduces Spurious Correlations in Semantic
Parsing Datasets [51.095144091781734]
本稿では,構造化された出力を持つラベル付きインスタンスプールから,構造的に多様なインスタンス群をサンプリングする新しいアルゴリズムを提案する。
提案アルゴリズムは, 合成テンプレート分割だけでなく, 従来のID分割においても, 従来のアルゴリズムよりも競合的に動作することを示す。
一般に、多種多様な列車集合は、10組のデータセット分割ペアのうち9組で同じ大きさのランダムな訓練集合よりも優れた一般化をもたらす。
論文 参考訳(メタデータ) (2022-03-16T07:41:27Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Sequence-Level Mixed Sample Data Augmentation [119.94667752029143]
本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。
我々の手法であるSeqMixは、トレーニングセットから入力/出力シーケンスをソフトに結合することで、新しい合成例を作成する。
論文 参考訳(メタデータ) (2020-11-18T02:18:04Z) - Compositional Generalization and Natural Language Variation: Can a
Semantic Parsing Approach Handle Both? [27.590858384414567]
私たちは、自然言語のバリエーションと合成の一般化の両方を扱う意味解析アプローチを開発できますか?
我々は、この能力をよりよく評価するために、非合成データセットの新しいトレインとテスト分割を提案する。
また、NQG-T5は、高精度文法に基づくアプローチと事前学習されたシーケンス・ツー・シーケンスモデルを組み合わせたハイブリッドモデルである。
論文 参考訳(メタデータ) (2020-10-24T00:38:27Z) - Learning to Recombine and Resample Data for Compositional Generalization [35.868789086531685]
R&Rは、潜在記号構造に訴えることなく、大規模な合成一般化を可能にする学習データ拡張スキームである。
R&Rには、プロトタイプベースの生成モデルによるオリジナルのトレーニング例の再結合と、外挿を促進するために生成されたサンプルの再サンプリングの2つのコンポーネントがある。
論文 参考訳(メタデータ) (2020-10-08T00:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。