論文の概要: Undivided Attention: Are Intermediate Layers Necessary for BERT?
- arxiv url: http://arxiv.org/abs/2012.11881v1
- Date: Tue, 22 Dec 2020 08:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:48:59.163801
- Title: Undivided Attention: Are Intermediate Layers Necessary for BERT?
- Title(参考訳): 未分化の注意:中間層はBERTにとって必要か?
- Authors: Sharath Nittur Sridhar, Anthony Sarah
- Abstract要約: 下流タスクのネットワーク性能における中間層の重要性について検討する。
BERT-Baseの中間層数の削減とアーキテクチャの変更により,下流タスクの微調整精度の低下が最小限に抑えられることを示す。
- 参考スコア(独自算出の注目度): 1.9798034349981157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, BERT-based models have been extremely successful in solving
a variety of natural language processing (NLP) tasks such as reading
comprehension, natural language inference, sentiment analysis, etc. All
BERT-based architectures have a self-attention block followed by a block of
intermediate layers as the basic building component. However, a strong
justification for the inclusion of these intermediate layers remains missing in
the literature. In this work we investigate the importance of intermediate
layers on the overall network performance of downstream tasks. We show that
reducing the number of intermediate layers and modifying the architecture for
BERT-Base results in minimal loss in fine-tuning accuracy for downstream tasks
while decreasing the number of parameters and training time of the model.
Additionally, we use the central kernel alignment (CKA) similarity metric and
probing classifiers to demonstrate that removing intermediate layers has little
impact on the learned self-attention representations.
- Abstract(参考訳): 近年,BERTをベースとしたモデルは,読解,自然言語推論,感情分析など,さまざまな自然言語処理(NLP)タスクの解決に極めて成功している。
すべてのBERTベースのアーキテクチャは自己保持ブロックを持ち、続いて基本的なビルディングコンポーネントとして中間層のブロックがある。
しかし、これらの中間層を包含する強い正当性は文献に残っていない。
本研究では,下流タスクのネットワーク性能における中間層の重要性について検討する。
BERT-Baseの中間層数の削減とアーキテクチャの変更により、下流タスクの微調整精度の低下が最小限に抑えられ、パラメータの減少とモデルの訓練時間が短縮されることを示す。
さらに,中央カーネルアライメント(cka)類似度メトリックと探索分類器を用いて,中間層除去が学習自己着脱表現にほとんど影響を与えないことを示す。
関連論文リスト
- The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Profitable Trade-Off Between Memory and Performance In Multi-Domain
Chatbot Architectures [0.0]
本研究では, 自然言語処理の分野における分類問題を解くために, Bi Representations for Transformers (BERT) を用いた。
これは、複数の分類問題を解決するために使用される複数のモデルによって生成されるサーバの負荷を軽減することを目的としている。
この方法で使用されるデータセットは、154クラスの5つの分類問題からなる。
論文 参考訳(メタデータ) (2021-11-06T20:45:17Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Explaining and Improving BERT Performance on Lexical Semantic Change
Detection [22.934650688233734]
SemEval-2020 Task 1における型ベースモデルの最近の成功は、トークンベースモデルの成功がなぜ我々の分野に反映しないのかという疑問を提起している。
BERTベクトルのクラスタリングに対する変数の範囲の影響を調査し、その低パフォーマンスがターゲット語の正則情報によるものであることを示した。
論文 参考訳(メタデータ) (2021-03-12T13:29:30Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。