論文の概要: The Devil is in the Detail: Simple Tricks Improve Systematic
Generalization of Transformers
- arxiv url: http://arxiv.org/abs/2108.12284v1
- Date: Thu, 26 Aug 2021 17:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:21:09.654005
- Title: The Devil is in the Detail: Simple Tricks Improve Systematic
Generalization of Transformers
- Title(参考訳): The Devil is the Detail: Simple Tricks Improvs Systematic Generalization of Transformers
- Authors: R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber
- Abstract要約: SCAN,CFQ,PCFG,COGS,数学の5つの一般的なデータセットの改善について報告する。
また,PCFGの生産性分割では50%から85%,COGSでは35%から81%に改善した。
これにより、体系的に一般化するニューラルネットワークを開発するための適切な一般化検証セットが要求される。
- 参考スコア(独自算出の注目度): 8.424405898986118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, many datasets have been proposed to test the systematic
generalization ability of neural networks. The companion baseline Transformers,
typically trained with default hyper-parameters from standard tasks, are shown
to fail dramatically. Here we demonstrate that by revisiting model
configurations as basic as scaling of embeddings, early stopping, relative
positional embedding, and Universal Transformer variants, we can drastically
improve the performance of Transformers on systematic generalization. We report
improvements on five popular datasets: SCAN, CFQ, PCFG, COGS, and Mathematics
dataset. Our models improve accuracy from 50% to 85% on the PCFG productivity
split, and from 35% to 81% on COGS. On SCAN, relative positional embedding
largely mitigates the EOS decision problem (Newman et al., 2020), yielding 100%
accuracy on the length split with a cutoff at 26. Importantly, performance
differences between these models are typically invisible on the IID data split.
This calls for proper generalization validation sets for developing neural
networks that generalize systematically. We publicly release the code to
reproduce our results.
- Abstract(参考訳): 近年,ニューラルネットワークの系統的一般化能力をテストするために,多くのデータセットが提案されている。
標準タスクからデフォルトのハイパーパラメータでトレーニングされるコンパニオンベースライントランスフォーマは、劇的に失敗することが示されている。
ここでは,組込みのスケーリング,早期停止,相対的位置埋め込み,普遍的トランスフォーマティブといった基本的なモデル構成を再検討することで,系統的一般化におけるトランスフォーマの性能を大幅に向上できることを実証する。
SCAN,CFQ,PCFG,COGS,数学データセットの5つの一般的なデータセットの改善について報告する。
また,PCFGの生産性分割では50%から85%,COGSでは35%から81%に改善した。
スキャンにおいて、相対的な位置埋め込みはeos決定問題(newman et al., 2020)をほとんど軽減し、カットオフ26で長さ分割の精度100%を得る。
重要なことに、これらのモデル間のパフォーマンスの違いは、通常IDデータ分割で見えない。
これは、体系的に一般化するニューラルネットワークを開発するための適切な一般化検証セットを要求する。
私たちは結果を再現するコードを公にリリースします。
関連論文リスト
- Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data
Regimes [3.7189423451031356]
少数のデータから一般化する枠組みを提案する。
完全に接続されたレイヤで最新のCNNを強化し、このアーキテクチャ変更が低データ体制にもたらす大きな影響を示します。
論文 参考訳(メタデータ) (2022-10-11T17:55:10Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization [8.424405898986118]
本稿では,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的アテンションの2つの改良を提案する。
我々の新しいニューラル・データ・ルータ(NDR)は、古典的な構成表検索タスクにおいて、100%長の一般化精度を実現する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
論文 参考訳(メタデータ) (2021-10-14T21:24:27Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。