論文の概要: CAMeMBERT: Cascading Assistant-Mediated Multilingual BERT
- arxiv url: http://arxiv.org/abs/2212.11456v1
- Date: Thu, 22 Dec 2022 02:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:26:25.204334
- Title: CAMeMBERT: Cascading Assistant-Mediated Multilingual BERT
- Title(参考訳): CAMeMBERT: Cascading Assistant-Mediated Multilingual BERT
- Authors: Dan DeGenaro and Jugal Kalita
- Abstract要約: 本稿では,LightMBERTを用いた知識蒸留技術を提案する。
CAMeMBERTはmBERTの時間と空間の複雑さを改善することを目的としている。
- 参考スコア(独自算出の注目度): 2.792030485253753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models having hundreds of millions, and even billions, of
parameters have performed extremely well on a variety of natural language
processing (NLP) tasks. Their widespread use and adoption, however, is hindered
by the lack of availability and portability of sufficiently large computational
resources. This paper proposes a knowledge distillation (KD) technique building
on the work of LightMBERT, a student model of multilingual BERT (mBERT). By
repeatedly distilling mBERT through increasingly compressed toplayer distilled
teacher assistant networks, CAMeMBERT aims to improve upon the time and space
complexities of mBERT while keeping loss of accuracy beneath an acceptable
threshold. At present, CAMeMBERT has an average accuracy of around 60.1%, which
is subject to change after future improvements to the hyperparameters used in
fine-tuning.
- Abstract(参考訳): 数十億、何十億というパラメータを持つ大規模言語モデルは、さまざまな自然言語処理(nlp)タスクで非常にうまく機能しています。
しかし、それらの普及と普及は、十分に大きな計算資源の可用性とポータビリティの欠如によって妨げられている。
本稿では,多言語BERT(mBERT)の学生モデルであるLightMBERTの作業に基づく知識蒸留(KD)手法を提案する。
CAMeMBERTは,mBERTの時間と空間の複雑さを改善しつつ,精度の低下を許容しきい値以下に維持することを目的としている。
現在、CAMeMBERTの平均精度は約60.1%であり、微調整に使用されるハイパーパラメータの今後の改善により変更される。
関連論文リスト
- Transferring BERT Capabilities from High-Resource to Low-Resource
Languages Using Vocabulary Matching [1.746529892290768]
本研究は、語彙マッチングを用いてBERT機能を高リソース言語から低リソース言語に転送する新しい手法を提案する。
我々はシレジア語とカシュビ語で実験を行い、目標言語が最小限の訓練データを持つ場合でもBERTモデルの性能向上のためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-22T09:49:26Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation [45.65004479806485]
多言語プリトレーニング言語モデルは、多言語の自然言語理解タスクで印象的なパフォーマンスを示しています。
これらのモデルは計算集約的であり、リソース制限されたデバイスへのデプロイが困難である。
我々は,多言語BERTの言語間一般化能力を小学生モデルに伝達するための簡易かつ効果的な蒸留法(LightMBERT)を提案する。
論文 参考訳(メタデータ) (2021-03-11T02:24:41Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。