論文の概要: Compositional generalization in semantic parsing with pretrained
transformers
- arxiv url: http://arxiv.org/abs/2109.15101v1
- Date: Thu, 30 Sep 2021 13:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:01:01.478968
- Title: Compositional generalization in semantic parsing with pretrained
transformers
- Title(参考訳): 事前学習トランスフォーマーを用いた意味解析における合成一般化
- Authors: A. Emin Orhan
- Abstract要約: 我々は,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルが,アウト・オブ・ディストリビューションの一般化を著しく改善することを示した。
また, より大規模なモデルではスクラッチからのトレーニングが困難であり, 収束までのトレーニングでは, 一般化精度が低いことを示す。
- 参考スコア(独自算出の注目度): 13.198689566654108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretraining instills large amounts of knowledge in deep neural
networks. This, in turn, improves the generalization behavior of these models
in downstream tasks. What exactly are the limits to the generalization benefits
of large-scale pretraining? Here, we report observations from some simple
experiments aimed at addressing this question in the context of two semantic
parsing tasks involving natural language, SCAN and COGS. We show that language
models pretrained exclusively with non-English corpora, or even with
programming language corpora, significantly improve out-of-distribution
generalization in these benchmarks, compared with models trained from scratch,
even though both benchmarks are English-based. This demonstrates the
surprisingly broad transferability of pretrained representations and knowledge.
Pretraining with a large-scale protein sequence prediction task, on the other
hand, mostly deteriorates the generalization performance in SCAN and COGS,
suggesting that pretrained representations do not transfer universally and that
there are constraints on the similarity between the pretraining and downstream
domains for successful transfer. Finally, we show that larger models are harder
to train from scratch and their generalization accuracy is lower when trained
up to convergence on the relatively small SCAN and COGS datasets, but the
benefits of large-scale pretraining become much clearer with larger models.
- Abstract(参考訳): 大規模事前学習はディープニューラルネットワークに大量の知識を注ぎ込む。
これにより、下流タスクにおけるこれらのモデルの一般化挙動が改善される。
大規模事前トレーニングの一般化のメリットには,どのような制限があるのでしょう?
本稿では,自然言語,スキャン,コグを含む2つの意味的構文解析タスクの文脈において,この問題に対処するためのいくつかの簡単な実験から得られた知見を報告する。
両ベンチマークが英語ベースであっても,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルは,スクラッチからトレーニングしたモデルと比較して,これらのベンチマークにおける分布外一般化を著しく改善することを示す。
これは、事前訓練された表現と知識の驚くほど広い伝達可能性を示している。
一方、大規模なタンパク質配列予測タスクによる事前訓練は、主にスキャンおよびcogsの一般化性能を低下させ、事前訓練された表現は普遍的に転送されず、前訓練ドメインと下流ドメインとの類似性に制約があることを示唆する。
最後に,比較的小さなSCANデータセットとCOGSデータセットに収束するまでのトレーニングでは,スクラッチからのトレーニングが困難であり,一般化精度が低下することが示されるが,大規模事前学習の利点はより大きなモデルでより明確になる。
関連論文リスト
- Bayes' Power for Explaining In-Context Learning Generalizations [46.17844703369127]
本稿では、この時代のニューラルネットワークの振る舞いをより有用な解釈は、真の後部の近似であると論じる。
トレーニングデータから知識を効果的に構築することにより,モデルがコンテキスト内学習者に対して堅牢になることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:01:34Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving BERT Pretraining with Syntactic Supervision [2.4087148947930634]
双方向マスク型トランスフォーマーは、現在のNLPランドスケープのコアテーマとなっている。
Lassy Largeは、自動的に注釈付きオランダ語のコーパスです。
我々の実験では,構文認識モデルが確立されたベースラインと同等の性能を発揮することを示唆する。
論文 参考訳(メタデータ) (2021-04-21T13:15:58Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Adversarial Training for Large Neural Language Models [107.84290922621163]
対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。
ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。
ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
論文 参考訳(メタデータ) (2020-04-20T00:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。