論文の概要: Improving Compositional Generalization with Latent Structure and Data
Augmentation
- arxiv url: http://arxiv.org/abs/2112.07610v1
- Date: Tue, 14 Dec 2021 18:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:09:42.393607
- Title: Improving Compositional Generalization with Latent Structure and Data
Augmentation
- Title(参考訳): 潜在構造とデータ拡張による合成一般化の改善
- Authors: Linlu Qiu, Peter Shaw, Panupong Pasupat, Pawe{\l} Krzysztof Nowak, Tal
Linzen, Fei Sha, Kristina Toutanova
- Abstract要約: 合成構造学習者(CSL)と呼ばれるモデルを用いたより強力なデータ組換え手法を提案する。
CSLは、準同期の文脈自由文法バックボーンを持つ生成モデルである。
この手順は、診断タスクのためにCSLの組成バイアスの大部分をT5に効果的に転送する。
- 参考スコア(独自算出の注目度): 39.24527889685699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic unstructured neural networks have been shown to struggle on
out-of-distribution compositional generalization. Compositional data
augmentation via example recombination has transferred some prior knowledge
about compositionality to such black-box neural models for several semantic
parsing tasks, but this often required task-specific engineering or provided
limited gains.
We present a more powerful data recombination method using a model called
Compositional Structure Learner (CSL). CSL is a generative model with a
quasi-synchronous context-free grammar backbone, which we induce from the
training data. We sample recombined examples from CSL and add them to the
fine-tuning data of a pre-trained sequence-to-sequence model (T5). This
procedure effectively transfers most of CSL's compositional bias to T5 for
diagnostic tasks, and results in a model even stronger than a T5-CSL ensemble
on two real world compositional generalization tasks. This results in new
state-of-the-art performance for these challenging semantic parsing tasks
requiring generalization to both natural language variation and novel
compositions of elements.
- Abstract(参考訳): 一般的な非構造ニューラルネットワークは、分布外合成の一般化に苦慮している。
サンプル組換えによる構成データ拡張は、いくつかの意味解析タスクのために、構成性に関する事前知識をブラックボックスニューラルモデルに移行した。
合成構造学習(CSL)と呼ばれるモデルを用いて,より強力なデータ組換え手法を提案する。
CSLは準同期型文脈自由文法のバックボーンを持つ生成モデルであり、トレーニングデータから導出する。
cslから再結合したサンプルをサンプリングし、事前学習されたシーケンス・ツー・シーケンスモデル(t5)の微調整データに追加する。
この手順は、CSLの構成バイアスの大部分を診断タスクのためにT5に効果的に転送し、2つの実世界の構成一般化タスクにおけるT5-CSLアンサンブルよりも強いモデルをもたらす。
これにより、自然言語の変分と要素の新規合成の両方に一般化を必要とするこれらの難解なセマンティック解析タスクに対して、新しい最先端性能が得られる。
関連論文リスト
- Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。
本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。
LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文 参考訳(メタデータ) (2022-01-30T21:44:46Z) - Learning to Generalize Compositionally by Transferring Across Semantic
Parsing Tasks [37.66114618645146]
本研究では,ある構成課題から別の構成課題への移動学習を容易にする学習表現について検討する。
本手法を3つの全く異なるデータセットを用いて意味解析に適用する。
本手法は,対象タスクのテストセット上でのベースラインに対する合成一般化を著しく改善する。
論文 参考訳(メタデータ) (2021-11-09T09:10:21Z) - Improving Compositional Generalization with Self-Training for
Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。
構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。
擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T04:26:56Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Sequence-Level Mixed Sample Data Augmentation [119.94667752029143]
本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。
我々の手法であるSeqMixは、トレーニングセットから入力/出力シーケンスをソフトに結合することで、新しい合成例を作成する。
論文 参考訳(メタデータ) (2020-11-18T02:18:04Z) - Learning to Recombine and Resample Data for Compositional Generalization [35.868789086531685]
R&Rは、潜在記号構造に訴えることなく、大規模な合成一般化を可能にする学習データ拡張スキームである。
R&Rには、プロトタイプベースの生成モデルによるオリジナルのトレーニング例の再結合と、外挿を促進するために生成されたサンプルの再サンプリングの2つのコンポーネントがある。
論文 参考訳(メタデータ) (2020-10-08T00:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。