論文の概要: Unlocking Compositional Generalization in Pre-trained Models Using
Intermediate Representations
- arxiv url: http://arxiv.org/abs/2104.07478v1
- Date: Thu, 15 Apr 2021 14:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:01:49.169890
- Title: Unlocking Compositional Generalization in Pre-trained Models Using
Intermediate Representations
- Title(参考訳): 中間表現を用いた事前学習モデルのアンロック合成一般化
- Authors: Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong
Pasupat, Yuan Zhang
- Abstract要約: seq2seq(sequence-to-sequence)モデルは、分散構成の一般化に苦しむことが知られている。
事前訓練されたseq2seqモデルにおける中間表現が組成一般化に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 27.244943870086175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence (seq2seq) models are prevalent in semantic parsing, but
have been found to struggle at out-of-distribution compositional
generalization. While specialized model architectures and pre-training of
seq2seq models have been proposed to address this issue, the former often comes
at the cost of generality and the latter only shows limited success. In this
paper, we study the impact of intermediate representations on compositional
generalization in pre-trained seq2seq models, without changing the model
architecture at all, and identify key aspects for designing effective
representations. Instead of training to directly map natural language to an
executable form, we map to a reversible or lossy intermediate representation
that has stronger structural correspondence with natural language. The
combination of our proposed intermediate representations and pre-trained models
is surprisingly effective, where the best combinations obtain a new
state-of-the-art on CFQ (+14.8 accuracy points) and on the template-splits of
three text-to-SQL datasets (+15.0 to +19.4 accuracy points). This work
highlights that intermediate representations provide an important and
potentially overlooked degree of freedom for improving the compositional
generalization abilities of pre-trained seq2seq models.
- Abstract(参考訳): seq2seq(sequence-to-sequence)モデルは、意味構文解析において一般的であるが、分散構成の一般化に苦しむことが知られている。
特殊モデルアーキテクチャとセック2セックモデルの事前訓練がこの問題に対処するために提案されているが、前者は一般的なコストがかかり、後者は限られた成功しか示さない。
本稿では, モデルアーキテクチャを全く変更することなく, 中間表現が合成一般化に与える影響について検討し, 有効表現を設計するための重要な側面を同定する。
自然言語を直接実行可能な形式にマッピングする訓練の代わりに、自然言語とより強い構造的対応を持つ可逆的あるいは損失的な中間表現にマップする。
提案する中間表現と事前学習モデルの組み合わせは驚くほど効果的であり,CFQ(+14.8精度点)と3つのテキスト-SQLデータセット(+15.0から+19.4精度点)のテンプレートスプリット上で,最適な組み合わせが新しい最先端の状態を得られる。
この研究は、中間表現が事前訓練されたseq2seqモデルの合成一般化能力を改善するために重要かつ潜在的に見落とされた自由度を与えることを強調している。
関連論文リスト
- Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Enhancing Pre-trained Models with Text Structure Knowledge for Question
Generation [2.526624977753083]
テキスト構造を応答位置と構文依存としてモデル化し,これらの制約に対処するために応答局所性モデリングと構文マスクアテンションを提案する。
SQuADデータセットの実験により、提案した2つのモジュールは、トレーニング済みの強力なモデルであるProphetNetよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2022-09-09T08:33:47Z) - Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive
Bias to Sequence-to-sequence Models [23.21767225871304]
シークエンス・ツー・シークエンス(seq2seq)モデルは、構文変換を行う際に階層性に敏感な方法で一般化できないことが多い。
事前学習されたSeq2seqモデルは、構文変換を行う際に階層的に一般化するが、構文変換でスクラッチから訓練されたモデルはそうではない。
論文 参考訳(メタデータ) (2022-03-17T15:46:53Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Grounded Graph Decoding Improves Compositional Generalization in
Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。
構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。
本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-05T17:50:14Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z) - Abstractive Summarization with Combination of Pre-trained
Sequence-to-Sequence and Saliency Models [11.420640383826656]
本稿では,テキストの重要部分と事前学習したSeq-to-seqモデルとの相性モデルの有効性について検討する。
組み合わせモデルは、CNN/DMとXSumの両方のデータセット上で、単純な微調整のSeq-to-seqモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-03-29T14:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。