論文の概要: A Primer in BERTology: What we know about how BERT works
- arxiv url: http://arxiv.org/abs/2002.12327v3
- Date: Mon, 9 Nov 2020 15:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:41:34.208607
- Title: A Primer in BERTology: What we know about how BERT works
- Title(参考訳): BERTologyのプライマー:BERTの仕組みについて知っておくべきこと
- Authors: Anna Rogers, Olga Kovaleva, Anna Rumshisky
- Abstract要約: 本論文は,人気のBERTモデルに関する150以上の研究の最初の調査である。
BERTがどのように機能するか、どのような情報を学び、どのように表現されるのか、現在の状況についてレビューする。
- 参考スコア(独自算出の注目度): 28.46467118021828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have pushed state of the art in many areas of NLP,
but our understanding of what is behind their success is still limited. This
paper is the first survey of over 150 studies of the popular BERT model. We
review the current state of knowledge about how BERT works, what kind of
information it learns and how it is represented, common modifications to its
training objectives and architecture, the overparameterization issue and
approaches to compression. We then outline directions for future research.
- Abstract(参考訳): トランスフォーマーベースのモデルは、NLPの多くの領域で最先端を推し進めていますが、その成功の背後にあるものに対する私たちの理解はまだ限られています。
本論文は,人気のBERTモデルに関する150以上の研究の最初の調査である。
我々は、bertの動作方法、学習する情報の種類、その表現方法、トレーニング目標とアーキテクチャの一般的な変更、オーバーパラメータの問題、圧縮へのアプローチに関する知識の現状についてレビューする。
その後、今後の研究の方向性を概説する。
関連論文リスト
- Bag of Lies: Robustness in Continuous Pre-training BERT [2.4850657856181946]
本研究の目的は、エンティティ知識に関するBERTの継続的な事前学習フェーズに関する洞察を得ることである。
BERTの事前トレーニングデータの最後の更新以来、このモデルは新型コロナウイルスに関するエンティティ知識をほとんど、あるいは全く持っていない。
ベースラインBERTモデルと,ファクトチェックベンチマークであるCheck-COVIDの事前学習版を比較した。
論文 参考訳(メタデータ) (2024-06-14T12:16:08Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - BERTnesia: Investigating the capture and forgetting of knowledge in BERT [7.304523502384361]
我々はBERTを探索し、そのパラメトリックメモリで捉えた関係知識を理解し、測定する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことが明らかとなった。
BERTが微調整されると、関係知識は忘れられる。
論文 参考訳(メタデータ) (2021-06-05T14:23:49Z) - CEAR: Cross-Entity Aware Reranker for Knowledge Base Completion [19.78530921375531]
BERTは実世界の知識を保存している。
知識ベース補完(KBC)のタスクにBERTを使用する以前の試みは、埋め込みベースの技術よりもパフォーマンスが悪くなった。
BERTを使用して既存のKBCモデルの出力を再ランクする新しいモデルであるCross-Entity Aware Reranker(CEAR)を開発しています。
論文 参考訳(メタデータ) (2021-04-18T06:56:00Z) - Using Prior Knowledge to Guide BERT's Attention in Semantic Textual
Matching Tasks [13.922700041632302]
深層トランスフォーマーモデル(Bidirectional Representations from Transformers (BERT))に先行知識を組み込む問題について検討する。
BERTがもっとも必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。
実験により,提案した知識を付加したBERTが意味的テキストマッチング性能を一貫して改善できることが実証された。
論文 参考訳(メタデータ) (2021-02-22T12:07:16Z) - BERTnesia: Investigating the capture and forgetting of knowledge in BERT [5.849736173068868]
BERTは、取得した関係知識の理解と測定に特化しています。
中間層は、見いだされた全知識にかなりの量 (17-60%) を貢献する。
BERTが微調整された場合、関係知識は忘れられるが、その微調整の対象によって忘れられる範囲が影響を受ける。
論文 参考訳(メタデータ) (2020-10-19T08:46:30Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。