論文の概要: Undivided Attention: Are Intermediate Layers Necessary for BERT?
- arxiv url: http://arxiv.org/abs/2012.11881v1
- Date: Tue, 22 Dec 2020 08:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:48:59.163801
- Title: Undivided Attention: Are Intermediate Layers Necessary for BERT?
- Title(参考訳): 未分化の注意:中間層はBERTにとって必要か?
- Authors: Sharath Nittur Sridhar, Anthony Sarah
- Abstract要約: 下流タスクのネットワーク性能における中間層の重要性について検討する。
BERT-Baseの中間層数の削減とアーキテクチャの変更により,下流タスクの微調整精度の低下が最小限に抑えられることを示す。
- 参考スコア(独自算出の注目度): 1.9798034349981157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, BERT-based models have been extremely successful in solving
a variety of natural language processing (NLP) tasks such as reading
comprehension, natural language inference, sentiment analysis, etc. All
BERT-based architectures have a self-attention block followed by a block of
intermediate layers as the basic building component. However, a strong
justification for the inclusion of these intermediate layers remains missing in
the literature. In this work we investigate the importance of intermediate
layers on the overall network performance of downstream tasks. We show that
reducing the number of intermediate layers and modifying the architecture for
BERT-Base results in minimal loss in fine-tuning accuracy for downstream tasks
while decreasing the number of parameters and training time of the model.
Additionally, we use the central kernel alignment (CKA) similarity metric and
probing classifiers to demonstrate that removing intermediate layers has little
impact on the learned self-attention representations.
- Abstract(参考訳): 近年,BERTをベースとしたモデルは,読解,自然言語推論,感情分析など,さまざまな自然言語処理(NLP)タスクの解決に極めて成功している。
すべてのBERTベースのアーキテクチャは自己保持ブロックを持ち、続いて基本的なビルディングコンポーネントとして中間層のブロックがある。
しかし、これらの中間層を包含する強い正当性は文献に残っていない。
本研究では,下流タスクのネットワーク性能における中間層の重要性について検討する。
BERT-Baseの中間層数の削減とアーキテクチャの変更により、下流タスクの微調整精度の低下が最小限に抑えられ、パラメータの減少とモデルの訓練時間が短縮されることを示す。
さらに,中央カーネルアライメント(cka)類似度メトリックと探索分類器を用いて,中間層除去が学習自己着脱表現にほとんど影響を与えないことを示す。
関連論文リスト
- Neural Architecture Search for Sentence Classification with BERT [4.862490782515929]
計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。
GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。
論文 参考訳(メタデータ) (2024-03-27T13:25:43Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Don't Judge a Language Model by Its Last Layer: Contrastive Learning
with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。
本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T13:09:49Z) - The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。