論文の概要: BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT
- arxiv url: http://arxiv.org/abs/2001.09309v2
- Date: Mon, 15 Feb 2021 09:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 23:58:56.742525
- Title: BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT
- Title(参考訳): bertの出力層はすべての隠れレイヤを認識するか?
いくつかの興味深い現象とBERTの簡易化
- Authors: Wei-Tsung Kao, Tsung-Han Wu, Po-Han Chi, Chun-Cheng Hsieh, Hung-Yi Lee
- Abstract要約: 変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
- 参考スコア(独自算出の注目度): 53.63288887672302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Bidirectional Encoder Representations from Transformers (BERT) have
achieved tremendous success in many natural language processing (NLP) tasks, it
remains a black box. A variety of previous works have tried to lift the veil of
BERT and understand each layer's functionality. In this paper, we found that
surprisingly the output layer of BERT can reconstruct the input sentence by
directly taking each layer of BERT as input, even though the output layer has
never seen the input other than the final hidden layer. This fact remains true
across a wide variety of BERT-based models, even when some layers are
duplicated. Based on this observation, we propose a quite simple method to
boost the performance of BERT. By duplicating some layers in the BERT-based
models to make it deeper (no extra training required in this step), they obtain
better performance in the downstream tasks after fine-tuning.
- Abstract(参考訳): Bidirectional Encoder Representations from Transformers (BERT) は多くの自然言語処理(NLP)タスクで大きな成功を収めているが、ブラックボックスのままである。
BERTのベールを引き上げ、各レイヤの機能を理解するために、以前のさまざまな作業が行われた。
本稿では, bertの出力層が最終隠れ層以外の入力を見たことがないにもかかわらず, bertの各層を直接入力として取り込んで入力文を再構築できることを発見した。
この事実は、いくつかのレイヤが複製された場合でも、さまざまなBERTベースのモデルに当てはまる。
そこで本研究では,BERTの性能向上のための簡易な手法を提案する。
BERTベースのモデルのいくつかのレイヤを複製してより深く(このステップでは追加のトレーニングは不要)することで、微調整後の下流タスクのパフォーマンスが向上する。
関連論文リスト
- Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - PromptBERT: Improving BERT Sentence Embeddings with Prompts [95.45347849834765]
本稿では,トークン埋め込みのバイアスを低減し,元のBERT層をより効果的にするためのプロンプトベースの文埋め込み手法を提案する。
また,教師なし設定と教師なし設定とのパフォーマンスギャップを大幅に短縮するテンプレート認知技術により,教師なし学習の新たな目標を提案する。
我々の微調整手法は教師なし設定と教師なし設定の両方において最先端のSimCSEよりも優れている。
論文 参考訳(メタデータ) (2022-01-12T06:54:21Z) - Roof-BERT: Divide Understanding Labour and Join in Work [7.523253052992842]
Roof-BERTは、2つの基盤となるBERTと融合層を持つモデルである。
基盤となるBERTの1つは知識資源をエンコードし、もう1つは元の入力文をエンコードする。
QAタスクの実験結果から,提案手法の有効性が明らかになった。
論文 参考訳(メタデータ) (2021-12-13T15:40:54Z) - BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence
Matching [4.002351785644765]
本稿では,BERTに深層再帰エンコーダを追加することにより,自然言語文マッチング(NLSM)のためのディープラーニングアーキテクチャを提案する。
モデル動作の解析は,BERTが依然としてテキストの完全複雑性を捉えていないことを示している。
宗教データセット上のBERTアルゴリズムは89.70%の精度を達成し、BERT-DREアーキテクチャは90.29%まで改善された。
論文 参考訳(メタデータ) (2021-11-03T12:56:13Z) - Bertinho: Galician BERT Representations [14.341471404165349]
本稿ではガリシア語に対する単言語BERTモデルを提案する。
我々は、それぞれ6層と12層からなる2つのモデルをリリースする。
我々のモデル、特に12層モデルでは、ほとんどのタスクにおいてmBERTの結果よりも優れています。
論文 参考訳(メタデータ) (2021-03-25T12:51:34Z) - BERT-JAM: Boosting BERT-Enhanced Neural Machine Translation with Joint
Attention [9.366359346271567]
本稿では、BERT-JAMと呼ばれる新しいBERT強化ニューラルマシン翻訳モデルを提案する。
BERT-JAMは、エンコーダ/デコーダ層が異なる表現間の注意を動的に割り当てるように、ジョイントアテンションモジュールを使用する。
実験の結果,BERT-JAM は複数の翻訳タスクにおいて SOTA BLEU スコアを達成できた。
論文 参考訳(メタデータ) (2020-11-09T09:30:37Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - What's so special about BERT's layers? A closer look at the NLP pipeline
in monolingual and multilingual models [18.155121103400333]
オランダのNLPタスクに対して,オランダのBERTベースモデルと多言語BERTモデルを提案する。
音声のタグ付けをより深く分析することにより、与えられたタスク内でも、情報がネットワークの異なる部分に分散されていることを示す。
論文 参考訳(メタデータ) (2020-04-14T13:41:48Z) - DC-BERT: Decoupling Question and Document for Efficient Contextual
Encoding [90.85913515409275]
近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。
本稿では,2つのBERTモデルを持つコンテキストエンコーディングフレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。
SQuADオープンとNatural Questionsオープンデータセットでは、DC-BERTは文書検索の10倍のスピードアップを実現し、QAパフォーマンスのほとんど(約98%)を維持している。
論文 参考訳(メタデータ) (2020-02-28T08:18:37Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。