論文の概要: Optimizing small BERTs trained for German NER
- arxiv url: http://arxiv.org/abs/2104.11559v1
- Date: Fri, 23 Apr 2021 12:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 15:50:03.794003
- Title: Optimizing small BERTs trained for German NER
- Title(参考訳): ドイツのNERで訓練された小型BERTの最適化
- Authors: Jochen Z\"ollner, Konrad Sperfeld, Christoph Wick, Roger Labahn
- Abstract要約: 小型BERTモデルの様々なトレーニング手法を調査し、ドイツの5つの公共NERタスクで評価します。
CSEタグングと改質LCRFの2つの新しい微調整技術を提案します。
さらに,BERTメモリの使用量を削減し,性能を低下させるWWAという新しい手法を導入する。
- 参考スコア(独自算出の注目度): 0.16058099298620418
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Currently, the most widespread neural network architecture for training
language models is the so called BERT which led to improvements in various NLP
tasks. In general, the larger the number of parameters in a BERT model, the
better the results obtained in these NLP tasks. Unfortunately, the memory
consumption and the training duration drastically increases with the size of
these models, though. In this article, we investigate various training
techniques of smaller BERT models and evaluate them on five public German NER
tasks of which two are introduced by this article. We combine different methods
from other BERT variants like ALBERT, RoBERTa, and relative positional
encoding. In addition, we propose two new fine-tuning techniques leading to
better performance: CSE-tagging and a modified form of LCRF. Furthermore, we
introduce a new technique called WWA which reduces BERT memory usage and leads
to a small increase in performance.
- Abstract(参考訳): 現在、言語モデルをトレーニングするための最も広範なニューラルネットワークアーキテクチャはBERTと呼ばれ、様々なNLPタスクの改善につながっている。
一般に、BERTモデルのパラメータ数が大きくなるほど、これらのNLPタスクで得られる結果が良くなる。
残念ながら、これらのモデルのサイズによって、メモリ消費とトレーニング期間が大幅に増加する。
本稿では,より小型のBERTモデルの各種訓練手法について検討し,これらを5つの公開ドイツ語NERタスクで評価し,その2つを本論文で紹介する。
我々は、ALBERT、RoBERTa、および相対的な位置エンコーディングのような他のBERT変種とは異なる方法を組み合わせる。
さらに,CSEタグ付けとLCRFの修正形式という,より優れた性能を実現するための2つの新しい微調整手法を提案する。
さらに,BERTメモリの使用量を削減し,性能を低下させるWWAという新しい手法を導入する。
関連論文リスト
- LegalTurk Optimized BERT for Multi-Label Text Classification and NER [0.0]
多様なマスキング戦略を組み合わせることで、革新的な事前学習手法を導入する。
本研究では,法的領域における2つの重要なダウンストリームタスク,すなわち名義認識と多ラベルテキスト分類に焦点を当てる。
提案手法は,従来のBERTモデルと比較して,NERと複数ラベルのテキスト分類タスクにおいて有意な改善が認められた。
論文 参考訳(メタデータ) (2024-06-30T10:19:54Z) - SpikeBERT: A Language Spikformer Learned from BERT with Knowledge
Distillation [31.777019330200705]
スパイキングニューラルネットワーク(SNN)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な道を提供する。
我々は最近提案されたスパイクトランスフォーマー(すなわち、Spikformer)を改善して、言語タスクの処理を可能にします。
提案手法で訓練したSpikeBERTは,最先端のSNNよりも優れており,英語と中国語のテキスト分類タスクにおけるBERTと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T08:41:16Z) - BERTino: an Italian DistilBERT model [0.0]
本稿では, DistilBERT モデルである BERTino について紹介する。
我々は, BERTBASE に匹敵する F1 スコアを, 学習速度と推論速度を著しく向上させ, ISDT, イタリアンParTUT, イタリアンWikiNER, およびマルチクラス分類タスクで BERTino を評価した。
論文 参考訳(メタデータ) (2023-03-31T15:07:40Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - BoostingBERT:Integrating Multi-Class Boosting into BERT for NLP Tasks [0.5893124686141781]
本稿では,BERTにマルチクラスブースティングを統合する新しいBoosting BERTモデルを提案する。
提案したモデルについて,GLUEデータセットと3つの中国NLUベンチマークを用いて評価した。
論文 参考訳(メタデータ) (2020-09-13T09:07:14Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。