論文の概要: Of Non-Linearity and Commutativity in BERT
- arxiv url: http://arxiv.org/abs/2101.04547v3
- Date: Thu, 14 Jan 2021 10:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:54:07.588730
- Title: Of Non-Linearity and Commutativity in BERT
- Title(参考訳): BERTの非線形性と通信性
- Authors: Sumu Zhao, Damian Pascual, Gino Brunner, Roger Wattenhofer
- Abstract要約: BERTの層間相互作用について検討し,層間構造が何らかの階層構造を示す一方で,ファジィな方法で特徴を抽出することを示した。
その結果、BERTは層可換性に対する誘導バイアスを持っていることが示唆され、これは主にスキップ接続によるものである。
- 参考スコア(独自算出の注目度): 8.295319152986316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we provide new insights into the transformer architecture, and
in particular, its best-known variant, BERT. First, we propose a method to
measure the degree of non-linearity of different elements of transformers.
Next, we focus our investigation on the feed-forward networks (FFN) inside
transformers, which contain 2/3 of the model parameters and have so far not
received much attention. We find that FFNs are an inefficient yet important
architectural element and that they cannot simply be replaced by attention
blocks without a degradation in performance. Moreover, we study the
interactions between layers in BERT and show that, while the layers exhibit
some hierarchical structure, they extract features in a fuzzy manner. Our
results suggest that BERT has an inductive bias towards layer commutativity,
which we find is mainly due to the skip connections. This provides a
justification for the strong performance of recurrent and weight-shared
transformer models.
- Abstract(参考訳): 本研究では、トランスフォーマーアーキテクチャ、特にその最も有名な変種BERTについて、新たな洞察を提供する。
まず,変圧器の異なる要素の非線形性の度合いを測定する手法を提案する。
次に,モデルパラメータの2/3を含むトランスフォーワード内のフィードフォワードネットワーク(ffn)に着目し,これまでにはあまり注目されていない。
FFNは非効率で重要なアーキテクチャ要素であり、性能の劣化なしには単に注目ブロックに置き換えることはできない。
さらに, BERT層間の相互作用について検討し, 階層構造を示す一方で, ファジィな方法で特徴を抽出することを示した。
以上の結果から,BERTは層可換性に対して帰納的偏りがあることが示唆された。
これは、リカレントおよび重み共有トランスモデルの性能向上の正当性を提供する。
関連論文リスト
- FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック間の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは, モデル性能を向上するために, 刈り込み変圧器ブロックをリサイクルする新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - MABViT -- Modified Attention Block Enhances Vision Transformers [0.0]
本稿では,この問題に対処するために,注目ブロック内に非線形性を統合した新しい変圧器変圧器を提案する。
我々は,値テンソル上でのGLUベースのアクティベーション関数を実装し,この新手法はImageNet-1Kデータセット上で現在最先端のS/16変圧器を0.6%上回っている。
論文 参考訳(メタデータ) (2023-12-03T09:00:31Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image
Prediction [33.29925021875922]
階層内セマンティック・プロモーション(ISP)、クロスレベルデカップリング・インタラクション(CDI)、アテンション・リファインメント・ファンクション(ARF)からなる画像予測のための新しいセマンティック・アウェア・デカップリング・トランスフォーマー・ピラミッド(SDTP)を提案する。
ISPは、異なる受容空間における意味的多様性を探求する。CDIは、疎結合空間における異なるレベル間のグローバルな関心と相互作用を構築し、重計算の問題を解決する。
提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の精度を著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-18T16:29:14Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。