論文の概要: Optimizing Deeper Transformers on Small Datasets: An Application on
Text-to-SQL Semantic Parsing
- arxiv url: http://arxiv.org/abs/2012.15355v1
- Date: Wed, 30 Dec 2020 22:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:06:09.489430
- Title: Optimizing Deeper Transformers on Small Datasets: An Application on
Text-to-SQL Semantic Parsing
- Title(参考訳): 小さなデータセット上でのより深いトランスフォーマーの最適化:テキストからsqlへの意味解析への応用
- Authors: Peng Xu, Wei Yang, Wenjie Zi, Keyi Tang, Chengyang Huang, Jackie Chi
Kit Cheung, Yanshuai Cao
- Abstract要約: 超深層変圧器の利点は, 強固な構造予測タスクに引き継がれることが示されている。
特に,意味解析タスクのために48層のトランスフォーマーをトレーニングすることに成功している。
- 参考スコア(独自算出の注目度): 23.280034406077757
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the common belief that training deep transformers from scratch
requires large datasets, people usually only use shallow and simple additional
layers on top of pre-trained models during fine-tuning on small datasets. We
provide evidence that this does not always need to be the case: with proper
initialization and training techniques, the benefits of very deep transformers
are shown to carry over to hard structural prediction tasks, even using small
datasets. In particular, we successfully train 48 layers of transformers for a
semantic parsing task. These comprise 24 fine-tuned transformer layers from
pre-trained RoBERTa and 24 relation-aware transformer layers trained from
scratch. With fewer training steps and no task-specific pre-training, we obtain
the state of the art performance on the challenging cross-domain Text-to-SQL
semantic parsing benchmark Spider. We achieve this by deriving a novel Data
dependent Transformer Fixed-update initialization scheme (DT-Fixup), inspired
by the prior T-Fixup work. Further error analysis demonstrates that increasing
the depth of the transformer model can help improve generalization on the cases
requiring reasoning and structural understanding.
- Abstract(参考訳): スクラッチからディープトランスフォーマーをトレーニングするには大きなデータセットが必要であるという一般的な信念のため、人々は小さなデータセットを微調整する際、トレーニング済みのモデルの上に浅い層と単純な層しか使用しない。
適切な初期化とトレーニング技術によって、非常に深いトランスフォーマーの利点は、小さなデータセットを使用しても、ハードな構造的予測タスクに引き継がれることが示されます。
特に,意味解析タスクのために48層のトランスフォーマーをトレーニングした。
これらは、予め訓練されたRoBERTaの24層と、スクラッチから訓練された24層からなる。
トレーニングステップが少なく、タスク固有の事前トレーニングがないため、挑戦的なクロスドメインのText-to-SQLセマンティックパーシングベンチマークであるSpider上で、アートパフォーマンスの状態を取得する。
我々は、従来のT-Fixup作業に触発された新しいデータ依存トランスフォーマー固定更新初期化スキーム(DT-Fixup)を導出した。
さらなる誤差解析により、変圧器モデルの深さを増大させることで、推論や構造的理解を必要とするケースの一般化が向上することを示した。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Discriminative and Generative Transformer-based Models For Situation
Entity Classification [8.029049649310211]
我々は、状況エンティティ(SE)分類タスクを、利用可能なトレーニングデータの量に応じて再検討する。
変換器を用いた変分オートエンコーダを用いて文を低次元の潜在空間に符号化する。
論文 参考訳(メタデータ) (2021-09-15T17:07:07Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - T-VSE: Transformer-Based Visual Semantic Embedding [5.317624228510748]
トランスフォーマーをベースとしたクロスモーダル埋め込みは,電子商取引製品イメージタイトルペアの大規模なデータセットでトレーニングした場合,ワード平均やRNNベースの埋め込みをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2020-05-17T23:40:33Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。