論文の概要: SpikeBERT: A Language Spikformer Learned from BERT with Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2308.15122v3
- Date: Sat, 7 Oct 2023 10:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 04:31:50.110771
- Title: SpikeBERT: A Language Spikformer Learned from BERT with Knowledge
Distillation
- Title(参考訳): SpikeBERT:知識蒸留でBERTから学んだ言語スパイクフォーマー
- Authors: Changze Lv, Tianlong Li, Jianhan Xu, Chenxi Gu, Zixuan Ling, Cenyuan
Zhang, Xiaoqing Zheng, Xuanjing Huang
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な道を提供する。
我々は最近提案されたスパイクトランスフォーマー(すなわち、Spikformer)を改善して、言語タスクの処理を可能にします。
提案手法で訓練したSpikeBERTは,最先端のSNNよりも優れており,英語と中国語のテキスト分類タスクにおけるBERTと同等の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 31.777019330200705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neural networks (SNNs) offer a promising avenue to implement deep
neural networks in a more energy-efficient way. However, the network
architectures of existing SNNs for language tasks are still simplistic and
relatively shallow, and deep architectures have not been fully explored,
resulting in a significant performance gap compared to mainstream
transformer-based networks such as BERT. To this end, we improve a
recently-proposed spiking Transformer (i.e., Spikformer) to make it possible to
process language tasks and propose a two-stage knowledge distillation method
for training it, which combines pre-training by distilling knowledge from BERT
with a large collection of unlabelled texts and fine-tuning with task-specific
instances via knowledge distillation again from the BERT fine-tuned on the same
training examples. Through extensive experimentation, we show that the models
trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and
even achieve comparable results to BERTs on text classification tasks for both
English and Chinese with much less energy consumption. Our code is available at
https://github.com/Lvchangze/SpikeBERT.
- Abstract(参考訳): spiking neural networks (snns)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な手段を提供する。
しかし、言語タスクのための既存のSNNのネットワークアーキテクチャは依然として単純で比較的浅く、ディープアーキテクチャは十分に検討されていないため、BERTのような主流のトランスフォーマーベースネットワークと比較して大きな性能差がある。
この目的のために,最近発表されたスパイキングトランス(すなわちspikformer)を改良し,言語タスクの処理を可能にするとともに,bert からの知識を大量のラベルなしテキストに蒸留し,同じトレーニング例で微調整されたbert からタスク固有インスタンスに微調整することにより,事前学習を組み合わせる2段階の知識蒸留法を提案する。
広範にわたる実験により、我々の手法で訓練されたSpikeBERTは、最先端のSNNより優れており、よりエネルギー消費の少ない英語と中国語のテキスト分類タスクにおいてBERTに匹敵する結果が得られた。
私たちのコードはhttps://github.com/lvchangze/spikebertで利用可能です。
関連論文リスト
- MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Optimizing small BERTs trained for German NER [0.16058099298620418]
小型BERTモデルの様々なトレーニング手法を調査し、ドイツの5つの公共NERタスクで評価します。
CSEタグングと改質LCRFの2つの新しい微調整技術を提案します。
さらに,BERTメモリの使用量を削減し,性能を低下させるWWAという新しい手法を導入する。
論文 参考訳(メタデータ) (2021-04-23T12:36:13Z) - Using Prior Knowledge to Guide BERT's Attention in Semantic Textual
Matching Tasks [13.922700041632302]
深層トランスフォーマーモデル(Bidirectional Representations from Transformers (BERT))に先行知識を組み込む問題について検討する。
BERTがもっとも必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。
実験により,提案した知識を付加したBERTが意味的テキストマッチング性能を一貫して改善できることが実証された。
論文 参考訳(メタデータ) (2021-02-22T12:07:16Z) - Evaluation of BERT and ALBERT Sentence Embedding Performance on
Downstream NLP Tasks [4.955649816620742]
本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。
我々は、Sentence-BERT (SBERT) と呼ばれるシアムとトリプルトネットワーク構造を持つBERTネットワークを改良し、BERTをALBERTに置き換え、Sentence-ALBERT (SALBERT) を作成する。
論文 参考訳(メタデータ) (2021-01-26T09:14:06Z) - E-BERT: A Phrase and Product Knowledge Enhanced Language Model for
E-commerce [63.333860695727424]
電子商取引タスクは、ドメインフレーズの正確な理解を必要とするが、そのようなきめ細かいフレーズレベルの知識は、BERTの訓練目的によって明示的にモデル化されていない。
この問題に対処するため、我々はE-BERTという統合事前学習フレームワークを提案する。
具体的には、フレーズレベルの知識を保存するために、適応的ハイブリッドマスキングを導入し、モデルが予備単語の知識から複雑なフレーズの学習に適応的に切り替えることを可能にする。
製品レベルの知識を活用するために,E-BERT を訓練し,製品に付随する隣人を認知的なクロスアテンション層で予測するNighbor Product Restruction を導入する。
論文 参考訳(メタデータ) (2020-09-07T00:15:36Z) - Neural Entity Linking on Technical Service Tickets [1.3621712165154805]
ニューラルアプローチは、約20%のトップ-1精度の改善とともに、ハンドコードされたエンティティより優れ、補完することを示す。
また,簡単な文単位の符号化 (Bi-Encoder) によって,高速かつ効率的に検索できることを示す。
論文 参考訳(メタデータ) (2020-05-15T15:47:02Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。